Nick Goldman. Foto von Benedikt von Loebell (CC BY-NC-SA 2.0)

Ein Sandkorn DNA

Nick Goldman. Foto von Benedikt von Loebell (CC BY-NC-SA 2.0)

Nick Goldman. Foto von Benedikt von Loebell (CC BY-NC-SA 2.0)

Die Bioinformatiker Ewan Birney und Nick Goldman beschrieben 2013 eine robuste Methode um Daten auf DNA zu speichern. Ihr DNA-Speicher enthielt 739 Kilobyte Information: sämtliche 154 Sonette von Shakespeare als ASCII Text, ein JPEG Foto des Baums vor dem Europäischen Bioinformatik-Institut in Cambridge, die Publikation von Watson und Crick von 1953 über die Struktur von DNA als PDF, einen MP3-Auszug aus der berühmten Rede “I have a dream” von Martin Luther King, und die Kodierungsanleitung um binäre Daten in DNA-Sequenzen umzuwandeln als ASCII Text. Diese fünf Dateien speicherten sie in zehnmillionenfacher Kopie auf ein Krümelchen DNA, kleiner als ein Sandkorn.

Wie kommt ein Foto auf DNA?

Ein digitales Foto ist letztlich (wie jede andere Datei am Computer), eine Sequenz aus Nullen und Einsen (Binärsequenz). Um eine Datei auf DNA zu speichern muss man sie zunächst von der Binärkodierung in den Code der DNA übersetzen. Der Schreibprozess ist anders als bei heutigen Speichermedien; entspricht eher einem Herstellungsprozess, die sogenannte DNA-Synthese. Das Lesen der DNA-Sequenz bezeichnet man als Sequenzierung. Synthese und Sequenzierung sind gängige biotechnologische Methoden.DNA-Speicher-Methode

Die Umwandlung vom Binär(2)- ins Quartär(4)-System ist einfach, da die Zahl 4 eine Zweierpotenz ist.

DNA besteht aus vier Nukleotiden, die wir als A, C, G und T abkürzen. Binärcode in Quartärcode umzuwandeln ist recht einfach, da die Zahl 4 selbst eine Zweierpotenz ist. Nehmen wir die Anzahl der Likes auf der BioinfoWelten Facebookseite: 105. Im Binärsystem (als ein Byte) dargestellt ist das 01101001, im Quartärsystem 1221. Und für A=0, C=1, G=2 und T=3 erhalten wir die DNA-Sequenz CGGC.

Habe ich gerade ein T geschrieben, werden die Werte 0, 1, 2 den verbleibenden Nukleotiden A, C, G (letzte Spalte) zugeordnet.

Habe ich gerade ein T geschrieben, werden die Werte 0, 1, 2 den verbleibenden Nukleotiden A, C, G (letzte Spalte) zugeordnet.

Derzeitige Sequenziermethoden haben aber insbesondere eine Schwäche: wenn gleiche Buchstaben aufeinander folgen, wird das Lesen der DNA ungenau. Ähnlich wenn ihr eine Zahl mit vielen Nullen lesen sollt und der Tausender-Separator fehlt. Um das zu vermeiden, haben sich Birney und Goldman einen Trick überlegt. Statt ins Quartärsystem übersetzt man ins Ternärsystem und benötigt somit nur drei DNA-Buchstaben. Habe ich gerade ein A geschrieben, dann kann ich die Werte 0, 1, 2 den verbleibenden Nukleotiden C, G, T zuordnen und verhindere somit, zwei As hintereinander zu schreiben.

Eine Datei wird nicht als kompletter DNA-Strang gespeichert. Auch hier gebieten die Sequenziermethoden wieder Einhalt, denn sie können nur etwa 500 Nukleotide-lange Sequenzen lesen. Also wird die Datei zerstückelt gespeichert in 117 Nukleotid-langen Sequenzen: 100 Nukleotide enthalten die eigentliche Datensequenz, 17 Nukleotide dienen als Schlüssel, um die Dateien wieder zusammenordnen zu können. Die DNA wird dabei so zerstückelt, dass sich jeweils vier Fragmente in 25 Nukleotiden überlappen — ein weiterer Trick um die Daten am Ende möglichst fehlerfrei lesen zu können. Dann geht es ins Labor zur DNA-Synthese-Maschine, die jedes Fragment in millionenfacher Kopie herstellt — sicher ist sicher.fragmente

Microsoft klinkt sich ein

XOR steht für "exklusives Oder". Dabei wird aus zwei Nullen immer eine Null, aus zwei Einsen immer eine Null, und aus einer Eins zusammen mit einer Null immer eine Eins. Und zwar in jede Richtung. Probiert es aus!

XOR steht für “exklusives Oder”. Dabei wird aus zwei Nullen immer eine Null, aus zwei Einsen immer eine Null, und aus einer Eins zusammen mit einer Null immer eine Eins. Und zwar in jede Richtung. Probiert es aus!

Dass DNA der Speicher der Zukunft seien könnte, hat auch Microsoft bereits erkannt. Anfang des Jahres präsentierten die Forscher eine Verbesserung der Methode von Birney und Goldman. Musste man vorher zum Beispiel den kompletten DNA-Speicher Auslesen, um an eine einzelne Datei zu kommen, ist es mit der neuen Methode möglich, gezielt auf einzelne Dateien zuzugreifen und damit erhebliche Kosten und Zeit zu sparen.

Auch die Redundanz der Daten ist etwas eleganter gelöst. Statt vierfacher Überlappung der Fragmente nutzen die Forscher die XOR-Verknüpfung: Aus zwei Strängen mit unterschiedlichen Daten wird ein dritter Strang erzeugt. Der dritte Strang bekommt die Adressen beider Ausgangsstränge. Geht nun einer der beiden Stränge verloren, kann er aus dem anderen Strang und dem XOR-Strang rekonstruiert werden. Besonders wichtige Dateien (oder Bruchstücke von Dateien wie zum Beispiel den Header) kann man mehrmals verknüpfen und somit besonders sicher speichern.

1 / 2 / 3

Kommentare (7)

  1. #1 roel
    *******
    27. Juli 2016

    @Franziska Hufsky Vielen Dank für diesen super informativen und interessanten Beitrag. Ich habe mich sehr gefreut, dass du auf meinen Themenvorschlag so toll und so schnell eingegangen bist. Ich bin schon gespannt auf Teil 2.

  2. #2 jottit
    28. Juli 2016

    Aus meiner Sicht ein hervorragender Artikel, der viele Punkte erläutert.

    DNA als Langzeitspeicher (~ 50 Jahre) zur Archivierung kann ich mir in wenigen Jahren gut vorstellen, als Ersatz zum Band und Mikrofilm.

    Als Kurzzeitspeicher, als Ersatz von der Hard Drive oder sogar von Solid State Drive, dazu fehlt mir der Glaube. Aber wahrscheinlich wird das auch nicht versucht werden.

  3. #3 Dr. Webbaer
    31. Juli 2016

    Alles richtig angemerkt, die Datendichte (das Fachwort) der Desoxyribonukleinsäure ist schon ganz OK, zudem persistiert diese Struktur (zeitlich sozusagen) recht gut.
    Andererseits sind durch die DNA keine dbzgl. Grenzen der Naturlehre gesetzt.

    MFG
    Dr. Webbaer

  4. #4 Anderer Michael
    2. August 2016

    Mal laienhaft gefragt.
    Kann diese Speicher-DNA auch in ein Erbgut eingebaut werden und weiter vererbt werden. Also, z. B.die Langzeit-Daten einer Versicherung sind im Erbgut einer Milchkuh inaktiv enthalten und werden weiter vererbt und kostenneutral gespeichert. Der Landwirt wäre sozusagen im Nebenerwerb Datenwirt.

    Die Frage ist ernst gemeint, das Beispiel nicht so ganz.

    • #5 Franziska Hufsky
      2. August 2016

      Mit Kühen vielleicht (noch) nicht, mit Bakterien wird sowas aber durchaus schon gemacht. Es gibt also Forschung in diesem Bereich. Der Nachteil zum Gefriertrocknen: im lebenden Organismus können Mutationen auftreten. Dadurch würden die Informationen dann verfälscht werden. Im schlimmsten Falle würden sie unlesbar werden (ein Fehler in einer “Pixel-Information” in einem Foto ist nicht so schlimm, ein Fehler im Header der Datei könnte sie jedoch unlesbar machen).

  5. […] DNA als Langzeitspeicher für unsere Daten scheint nicht unrealistisch. Kann man mit DNA auch rechnen? Biologische Prozesse sind nix anderes als Informationsverarbeitung — DNA ist die Information und verarbeitet wird sie zu all den chemischen Prozessen in unserem Körper, von der Verdauung bis zum Marathon-Lauf. Können wir die Informationsverarbeitung der DNA auf Probleme aus der Informatik übertragen? […]

  6. #7 Adi
    19. Januar 2021

    hallo zusammen,
    kann mir jemand weiter helfen. Ich bin Künstler und würde gerne ein Bild in DNA speichern
    wer könnte das für mich erledigen?

    danke
    Adi