Ein Sandkorn DNA
Die Bioinformatiker Ewan Birney und Nick Goldman beschrieben 2013 eine robuste Methode um Daten auf DNA zu speichern. Ihr DNA-Speicher enthielt 739 Kilobyte Information: sämtliche 154 Sonette von Shakespeare als ASCII Text, ein JPEG Foto des Baums vor dem Europäischen Bioinformatik-Institut in Cambridge, die Publikation von Watson und Crick von 1953 über die Struktur von DNA als PDF, einen MP3-Auszug aus der berühmten Rede “I have a dream” von Martin Luther King, und die Kodierungsanleitung um binäre Daten in DNA-Sequenzen umzuwandeln als ASCII Text. Diese fünf Dateien speicherten sie in zehnmillionenfacher Kopie auf ein Krümelchen DNA, kleiner als ein Sandkorn.
Wie kommt ein Foto auf DNA?
Ein digitales Foto ist letztlich (wie jede andere Datei am Computer), eine Sequenz aus Nullen und Einsen (Binärsequenz). Um eine Datei auf DNA zu speichern muss man sie zunächst von der Binärkodierung in den Code der DNA übersetzen. Der Schreibprozess ist anders als bei heutigen Speichermedien; entspricht eher einem Herstellungsprozess, die sogenannte DNA-Synthese. Das Lesen der DNA-Sequenz bezeichnet man als Sequenzierung. Synthese und Sequenzierung sind gängige biotechnologische Methoden.
DNA besteht aus vier Nukleotiden, die wir als A, C, G und T abkürzen. Binärcode in Quartärcode umzuwandeln ist recht einfach, da die Zahl 4 selbst eine Zweierpotenz ist. Nehmen wir die Anzahl der Likes auf der BioinfoWelten Facebookseite: 105. Im Binärsystem (als ein Byte) dargestellt ist das 01101001, im Quartärsystem 1221. Und für A=0, C=1, G=2 und T=3 erhalten wir die DNA-Sequenz CGGC.
Derzeitige Sequenziermethoden haben aber insbesondere eine Schwäche: wenn gleiche Buchstaben aufeinander folgen, wird das Lesen der DNA ungenau. Ähnlich wenn ihr eine Zahl mit vielen Nullen lesen sollt und der Tausender-Separator fehlt. Um das zu vermeiden, haben sich Birney und Goldman einen Trick überlegt. Statt ins Quartärsystem übersetzt man ins Ternärsystem und benötigt somit nur drei DNA-Buchstaben. Habe ich gerade ein A geschrieben, dann kann ich die Werte 0, 1, 2 den verbleibenden Nukleotiden C, G, T zuordnen und verhindere somit, zwei As hintereinander zu schreiben.
Eine Datei wird nicht als kompletter DNA-Strang gespeichert. Auch hier gebieten die Sequenziermethoden wieder Einhalt, denn sie können nur etwa 500 Nukleotide-lange Sequenzen lesen. Also wird die Datei zerstückelt gespeichert in 117 Nukleotid-langen Sequenzen: 100 Nukleotide enthalten die eigentliche Datensequenz, 17 Nukleotide dienen als Schlüssel, um die Dateien wieder zusammenordnen zu können. Die DNA wird dabei so zerstückelt, dass sich jeweils vier Fragmente in 25 Nukleotiden überlappen — ein weiterer Trick um die Daten am Ende möglichst fehlerfrei lesen zu können. Dann geht es ins Labor zur DNA-Synthese-Maschine, die jedes Fragment in millionenfacher Kopie herstellt — sicher ist sicher.
Microsoft klinkt sich ein
Dass DNA der Speicher der Zukunft seien könnte, hat auch Microsoft bereits erkannt. Anfang des Jahres präsentierten die Forscher eine Verbesserung der Methode von Birney und Goldman. Musste man vorher zum Beispiel den kompletten DNA-Speicher Auslesen, um an eine einzelne Datei zu kommen, ist es mit der neuen Methode möglich, gezielt auf einzelne Dateien zuzugreifen und damit erhebliche Kosten und Zeit zu sparen.
Auch die Redundanz der Daten ist etwas eleganter gelöst. Statt vierfacher Überlappung der Fragmente nutzen die Forscher die XOR-Verknüpfung: Aus zwei Strängen mit unterschiedlichen Daten wird ein dritter Strang erzeugt. Der dritte Strang bekommt die Adressen beider Ausgangsstränge. Geht nun einer der beiden Stränge verloren, kann er aus dem anderen Strang und dem XOR-Strang rekonstruiert werden. Besonders wichtige Dateien (oder Bruchstücke von Dateien wie zum Beispiel den Header) kann man mehrmals verknüpfen und somit besonders sicher speichern.
Kommentare (7)