Wollen wir es nicht übertreiben, das Verfahren ist noch lange nicht konkurrenzfähig. Einige hundert Kilobyte auszulesen braucht immernoch mehrere Stunden. Das Auslesen und Synthetisieren von DNA wird immer besser und schneller – eine Entwicklung die noch schneller verläuft als in der Computertechnik, weshalb es die Hoffnung gibt, dass die Technik in den nächsten Jahrzehnten brauchbar werden kann.

Zusammen mit meinem Kollegen Marc Sauter habe ich dazu jedenfalls folgendes geschrieben:

Microsoft kauft zehn Millionen Stränge synthetischer DNA

Weniger ist manchmal mehr: Microsoft und Twist Bioscience haben sich zusammengetan, um digitale Informationen auf künstlicher DNA zu speichern. Vor allem die extreme Datendichte beeindruckt.

Twist Bioscience hat zehn Millionen Stränge synthetischer DNA an Microsoft verkauft, wie das Silicon-Valley-Startup bekannt gegeben hat. Das Unternehmen arbeitet daran, digital Daten auf den Desoxyribonukleinsäure-Molekülen zu sichern, die alle Lebewesen als Genspeicher in ihren Körperzellen tragen. In dem wissenschaftlichen Aufsatz A DNA-Based Archival Storage System (PDF) beschreibt Microsoft Research, wie sich künstliche DNA in Zukunft prinzipiell als Speichermedium nutzen lassen soll.Übersetzung binärer Informationen in DNA per Huffman-Kodierung (Bild: Microsoft Research)

Zu den Vorteilen von DNA zählen die Haltbarkeit und die Speicherdichte: Die Halbwertszeit soll über 500 Jahre betragen. Laut einer Studie der American Chemical Society seien selbst aus 2.000 Jahre alter DNA noch Informationen ohne Defekte extrahierbar. Auf ein Gramm DNA umgerechnet, wären das ein Zettabyte oder eine Milliarde Terabyte an Informationen. Pro Kubikmillimeter könne Desoxyribonukleinsäure ein Exabyte an Daten speichern – eine Milliarde Gigabyte. Optische und magnetische Speicher in den Labors kommen derzeit bestenfalls auf 100 Gigabyte pro Kubikmillimeter. Noch sind Microsoft und Twist aber viele Jahre von einem kommerziellen Produkt entfernt.

Als Idee schwebt den Forschern vor, die Nukleotiden genannten Bausteine, die ein Doppelhelix-Molekül bilden, als Informationsträger für zu archivierende Daten zu verwenden. Bei einem initialen Test im Herbst sei es Microsoft Research gemeinsam mit Twist Bioscience gelungen, 100 Prozent der auf synthetischen DNA-Strängen abgelegten Informationen auszulesen. Anders als bei früheren Verfahren konnten die Forscher dabei gezielt auf beliebige Daten zugreifen. Bisher musste immer die gesamte DNA im Speicher sequenziert werden, um an den Inhalt einer einzigen Datei zu gelangen.

Die DNA besteht dabei nicht aus einem einzigen Strang, sondern aus vielen kurzen Abschnitten aus 200 Nukleotiden, von denen etwa 120 Daten kodieren. Längere Sequenzen lassen sich zur Zeit nicht künstlich synthetisieren. In den DNA des Menschen sind die Ketten über 100 Mal so lang.

Noch ist der Auslese-Prozess fehleranfällig

Die Sequenzierung erfolgt durch Polymerase-Kettenreaktionen. Das ist ein chemischer Vorgang, der durch biologische Enzyme in Gang gesetzt wird. Die Kettenreaktion dient dazu, gezielt vorhandene DNA-Sequenzen in einer Lösung zu vervielfältigen. Erst die vervielfältigten Stränge werden sequenziert. Um knapp 17.000 Stränge mit je 120 Nukleotiden auszulesen, mussten im Labor die Sequenzen von 20,6 Millionen Strängen ausgelesen werden. Ein Prozess, der auf dem heutigen Stand der Technik mehrere Stunden dauert. Damit gezielt nur Stränge ausgelesen werden, die auch die benötigten Daten beinhalten, werden alle Stränge mit Adressen versehen. Alle DNA-Stränge, die den falschen Anfang haben, werden nicht dupliziert und dadurch auch nie ausgelesen.Schreib- und Lese-Prozess der DNA (Bild: Microsoft Research)

Der Prozess des Auslesens ist sehr fehleranfällig. Tatsächlich gelang es den Forschern nie, Daten aus den vorhandenen Strängen vollständig wieder herzustellen, weil sich immer wieder einzelne Fehler einschlichen oder ganze Stränge verlorengingen. Um trotzdem die Daten zu rekonstruieren, müssen redundante Datenstrukturen benutzt werden. Eine Möglichkeit besteht darin, dass die erste Hälfte eines Datenstrangs identisch mit der zweiten Hälfte des letzten Datenstrangs ist. Effizienter ist aber eine XOR-Kodierung.

Wie in einem Raid-5 wird aus je zwei Strängen A und B mit unterschiedlichen Daten durch eine XOR-Verknüpfung ein dritter Strang erzeugt. Wenn jetzt einer der beiden ursprünglichen Stränge verloren geht, kann dessen Inhalt mit dem dritten Strang rekonstruiert werden. Besonders wichtige Daten können auch noch besser geschützt werden, indem sie mit mehreren anderen Strängen verknüpft werden. Wenn Daten im Strang A sehr wichtig sind, dann können durch XOR-Verknüpfung mit weiteren Strängen noch mehr solche Sicherheitskopien hinterlegt werden.

Beispielsweise können Fehler im Header einer jpg-Datei die gesamte Datei unlesbar machen, die Fehler in den eigentlichen Bilddaten führen dagegen schlimmstenfalls zu einzelnen Artefakten und sind im Allgemeinen kaum wahrnehmbar. Für diesen Bereich werden dann nicht mehr so viele Backups benötigt wie für den Header, wodurch die Speicherdichte steigt. Zur Zeit lassen sich mit der Technik nur wenige Hundert Kilobyte speichern, und das Auslesen der Daten nimmt mehrere Stunde in Anspruch. Durch die ständige Verbesserung der DNA-Sequenzierung und Synthese in den vergangenen Jahren hofft Microsoft aber auf eine vielversprechende Zukunft.

Kommentare (5)

  1. #1 Joachim
    29. April 2016

    Was passiert denn im Falle von z.B UV induzierter Thymindimerisierung?

    • #2 wasgeht
      29. April 2016

      Dann wird der Strang nicht mehr lesbar, aber in der Praxis würden solche Speicher auch lichtdicht verpackt werden.

  2. #3 Redundantes Speichern
    1. Mai 2016

    Ein sehr elegantes redundantes Speichern wird vom Packprogramm rar verwendet.
    Dort erstellt man z. B. 10 aufgesplittete rar Archive und kann wenn man möchte 1-9 Recovery Archive daneben ablegen. Man hat also im Maximalfall 19 Dateien, alle mit der gleichen Größe.
    Der Witz der Sache ist jedes dieser Recovery Archive kann ein beliebiges rar Archiv ersetzen.

  3. #4 Anderer Michael
    1. Mai 2016

    Wäre diese Informations-DNS geeignet, mittels Viren als Vektoren in ein Genom transferiert zu werden? Die Kuh im Stall/Weise würde nicht nur Milch geben, sondern diente auch als Datenspeicher. Diese Daten könnte sie auch “vererben “.Nur das Lesen der DNA-Information stelle ich mir schwierig vor.

  4. […] Wissenschaftler arbeiten an der Nutzung von DNA als Datenspeicher. Es locken eine Halbwertszeit von über 500 Jahren und eine enorme Datendichte: […]