Wollen wir es nicht übertreiben, das Verfahren ist noch lange nicht konkurrenzfähig. Einige hundert Kilobyte auszulesen braucht immernoch mehrere Stunden. Das Auslesen und Synthetisieren von DNA wird immer besser und schneller – eine Entwicklung die noch schneller verläuft als in der Computertechnik, weshalb es die Hoffnung gibt, dass die Technik in den nächsten Jahrzehnten brauchbar werden kann.

Zusammen mit meinem Kollegen Marc Sauter habe ich dazu jedenfalls folgendes geschrieben:

Microsoft kauft zehn Millionen Stränge synthetischer DNA

Weniger ist manchmal mehr: Microsoft und Twist Bioscience haben sich zusammengetan, um digitale Informationen auf künstlicher DNA zu speichern. Vor allem die extreme Datendichte beeindruckt.

Twist Bioscience hat zehn Millionen Stränge synthetischer DNA an Microsoft verkauft, wie das Silicon-Valley-Startup bekannt gegeben hat. Das Unternehmen arbeitet daran, digital Daten auf den Desoxyribonukleinsäure-Molekülen zu sichern, die alle Lebewesen als Genspeicher in ihren Körperzellen tragen. In dem wissenschaftlichen Aufsatz A DNA-Based Archival Storage System (PDF) beschreibt Microsoft Research, wie sich künstliche DNA in Zukunft prinzipiell als Speichermedium nutzen lassen soll. Übersetzung binärer Informationen in DNA per Huffman-Kodierung (Bild: Microsoft Research)

Zu den Vorteilen von DNA zählen die Haltbarkeit und die Speicherdichte: Die Halbwertszeit soll über 500 Jahre betragen. Laut einer Studie der American Chemical Society seien selbst aus 2.000 Jahre alter DNA noch Informationen ohne Defekte extrahierbar. Auf ein Gramm DNA umgerechnet, wären das ein Zettabyte oder eine Milliarde Terabyte an Informationen. Pro Kubikmillimeter könne Desoxyribonukleinsäure ein Exabyte an Daten speichern – eine Milliarde Gigabyte. Optische und magnetische Speicher in den Labors kommen derzeit bestenfalls auf 100 Gigabyte pro Kubikmillimeter. Noch sind Microsoft und Twist aber viele Jahre von einem kommerziellen Produkt entfernt.

Als Idee schwebt den Forschern vor, die Nukleotiden genannten Bausteine, die ein Doppelhelix-Molekül bilden, als Informationsträger für zu archivierende Daten zu verwenden. Bei einem initialen Test im Herbst sei es Microsoft Research gemeinsam mit Twist Bioscience gelungen, 100 Prozent der auf synthetischen DNA-Strängen abgelegten Informationen auszulesen. Anders als bei früheren Verfahren konnten die Forscher dabei gezielt auf beliebige Daten zugreifen. Bisher musste immer die gesamte DNA im Speicher sequenziert werden, um an den Inhalt einer einzigen Datei zu gelangen.

Die DNA besteht dabei nicht aus einem einzigen Strang, sondern aus vielen kurzen Abschnitten aus 200 Nukleotiden, von denen etwa 120 Daten kodieren. Längere Sequenzen lassen sich zur Zeit nicht künstlich synthetisieren. In den DNA des Menschen sind die Ketten über 100 Mal so lang.

Noch ist der Auslese-Prozess fehleranfällig

Die Sequenzierung erfolgt durch Polymerase-Kettenreaktionen. Das ist ein chemischer Vorgang, der durch biologische Enzyme in Gang gesetzt wird. Die Kettenreaktion dient dazu, gezielt vorhandene DNA-Sequenzen in einer Lösung zu vervielfältigen. Erst die vervielfältigten Stränge werden sequenziert. Um knapp 17.000 Stränge mit je 120 Nukleotiden auszulesen, mussten im Labor die Sequenzen von 20,6 Millionen Strängen ausgelesen werden. Ein Prozess, der auf dem heutigen Stand der Technik mehrere Stunden dauert. Damit gezielt nur Stränge ausgelesen werden, die auch die benötigten Daten beinhalten, werden alle Stränge mit Adressen versehen. Alle DNA-Stränge, die den falschen Anfang haben, werden nicht dupliziert und dadurch auch nie ausgelesen. Schreib- und Lese-Prozess der DNA (Bild: Microsoft Research)

Der Prozess des Auslesens ist sehr fehleranfällig. Tatsächlich gelang es den Forschern nie, Daten aus den vorhandenen Strängen vollständig wieder herzustellen, weil sich immer wieder einzelne Fehler einschlichen oder ganze Stränge verlorengingen. Um trotzdem die Daten zu rekonstruieren, müssen redundante Datenstrukturen benutzt werden. Eine Möglichkeit besteht darin, dass die erste Hälfte eines Datenstrangs identisch mit der zweiten Hälfte des letzten Datenstrangs ist. Effizienter ist aber eine XOR-Kodierung.

Wie in einem Raid-5 wird aus je zwei Strängen A und B mit unterschiedlichen Daten durch eine XOR-Verknüpfung ein dritter Strang erzeugt. Wenn jetzt einer der beiden ursprünglichen Stränge verloren geht, kann dessen Inhalt mit dem dritten Strang rekonstruiert werden. Besonders wichtige Daten können auch noch besser geschützt werden, indem sie mit mehreren anderen Strängen verknüpft werden. Wenn Daten im Strang A sehr wichtig sind, dann können durch XOR-Verknüpfung mit weiteren Strängen noch mehr solche Sicherheitskopien hinterlegt werden.

Beispielsweise können Fehler im Header einer jpg-Datei die gesamte Datei unlesbar machen, die Fehler in den eigentlichen Bilddaten führen dagegen schlimmstenfalls zu einzelnen Artefakten und sind im Allgemeinen kaum wahrnehmbar. Für diesen Bereich werden dann nicht mehr so viele Backups benötigt wie für den Header, wodurch die Speicherdichte steigt. Zur Zeit lassen sich mit der Technik nur wenige Hundert Kilobyte speichern, und das Auslesen der Daten nimmt mehrere Stunde in Anspruch. Durch die ständige Verbesserung der DNA-Sequenzierung und Synthese in den vergangenen Jahren hofft Microsoft aber auf eine vielversprechende Zukunft.

Kommentare (5)

Was passiert denn im Falle von z.B UV induzierter Thymindimerisierung?

#2 wasgeht
29. April 2016

Dann wird der Strang nicht mehr lesbar, aber in der Praxis würden solche Speicher auch lichtdicht verpackt werden.

Ein sehr elegantes redundantes Speichern wird vom Packprogramm rar verwendet.
Dort erstellt man z. B. 10 aufgesplittete rar Archive und kann wenn man möchte 1-9 Recovery Archive daneben ablegen. Man hat also im Maximalfall 19 Dateien, alle mit der gleichen Größe.
Der Witz der Sache ist jedes dieser Recovery Archive kann ein beliebiges rar Archiv ersetzen.

Wäre diese Informations-DNS geeignet, mittels Viren als Vektoren in ein Genom transferiert zu werden? Die Kuh im Stall/Weise würde nicht nur Milch geben, sondern diente auch als Datenspeicher. Diese Daten könnte sie auch “vererben “.Nur das Lesen der DNA-Information stelle ich mir schwierig vor.

[…] Wissenschaftler arbeiten an der Nutzung von DNA als Datenspeicher. Es locken eine Halbwertszeit von über 500 Jahren und eine enorme Datendichte: […]

Über das Blog

Was geht? (Und was nicht?) Um diese beiden Fragen soll es hier gehen. Und wenn sie schon nicht beantwortet werden, dann soll zumindest mit ihnen gekämpft werden. Die letzten drei Jahrhunderte Entwicklung in der Technik haben so manchen staunend zurück gelassen. Der britische Autor Arthur C. Clarke hat diese Erfahrung in drei "Gesetzen" formuliert. Das berühmteste ist sicher das letzte:

"Any sufficiently advanced technology is indistinguishable from magic."
Jede ausreichend fortgeschrittene Technologie ist von Magie nicht zu unterscheiden.

Und tatsächlich lässt sich heute in so manchen Diskussionen das Wort Technik ohne weiteres durch Magie ersetzen. Zu oft werden ihr unbegrenzte Fähigkeiten zugesprochen. Dem ist nicht so und ich hoffe mit dem Blog einen kleinen Beitrag zur Aufklärung beizutragen.

Auf Facebook kann man das Blog jetzt übrigens auch finden.

Wem das Blog gefällt, dem sei gesagt, dass ich dafür kaum bezahlt werde und trotzdem Geld für meinen Lebensunterhalt brauche.

Wer den Blog unterstützen will, kann das über Paypal.me machen. Das funktioniert für alle innerhalb der EU ohne Gebühren. Entweder ihr wählt dort selbst einen Betrag aus, oder nehmt die Links für 5€, 10€ oder 20€.

Juni 2015: 30 Euro.
Juli 2015: 30 Euro.
August 2015: 70 Euro.
September 2015: 10 Euro.
Oktober 2015: 40 Euro.
November 2015: 30 Euro.
Dezember 2015: 20 Euro.
Februar 2016: 20 Euro.

Bitte teilt mir mit, ob ich eure Namen veröffentlich darf.

Vielen Dank an alle Spender!

Wer mir monatlich Geld zukommen lassen will, hat dazu die Möglichkeit auf Patreon.

Vielen Dank an Thorben und Bazille!

Über den Autor

Frank Wunderlich-Pfeiffer hat die erste Milliarde Sekunden seines Lebens schon hinter sich, ist Wirtschaftsingenieur und hat in Jena Physik studiert. Er interessiert sich für alles mögliche, zur Zeit gerade besonders intensiv Trägerraketen und Kernkraft, aber eigentlich alle Bereiche der Energieversorgung, Technik, Naturwissenschaften allgemein und der Wirtschaft, zuletzt auch immer mehr Geschichte und Gesellschaftswissenschaften. Emails bitte an: Frank.Wunderlich.Pfeiffer@gmail.com (Die Funktioniert jetzt wirklich. Ich hatte hier viel zu lange Zeit eine ".de" adresse stehen, die ins Leere ging. Sorry. Bitte schreibt nochmal!)

#1 Joachim
29. April 2016

Was passiert denn im Falle von z.B UV induzierter Thymindimerisierung?
- #2 wasgeht
  29. April 2016
  
  Dann wird der Strang nicht mehr lesbar, aber in der Praxis würden solche Speicher auch lichtdicht verpackt werden.
#3 Redundantes Speichern
1. Mai 2016

Ein sehr elegantes redundantes Speichern wird vom Packprogramm rar verwendet.
Dort erstellt man z. B. 10 aufgesplittete rar Archive und kann wenn man möchte 1-9 Recovery Archive daneben ablegen. Man hat also im Maximalfall 19 Dateien, alle mit der gleichen Größe.
Der Witz der Sache ist jedes dieser Recovery Archive kann ein beliebiges rar Archiv ersetzen.
#4 Anderer Michael
1. Mai 2016

Wäre diese Informations-DNS geeignet, mittels Viren als Vektoren in ein Genom transferiert zu werden? Die Kuh im Stall/Weise würde nicht nur Milch geben, sondern diente auch als Datenspeicher. Diese Daten könnte sie auch “vererben “.Nur das Lesen der DNA-Information stelle ich mir schwierig vor.
#5 Wissenschaftler arbeiten an der Nutzung von DNA als … | sb'log
7. Mai 2016

[…] Wissenschaftler arbeiten an der Nutzung von DNA als Datenspeicher. Es locken eine Halbwertszeit von über 500 Jahren und eine enorme Datendichte: […]

DNA als Datenspeicher wird langsam realistischer

Microsoft kauft zehn Millionen Stränge synthetischer DNA

Noch ist der Auslese-Prozess fehleranfällig

Kommentare (5)

Über das Blog

Countdown Podcast

Über den Autor

Neueste Beiträge

Wie kam Nordkorea an die Bombe – und was Zeit Online daraus machte

DNA als Datenspeicher wird langsam realistischer

Thermophotovoltaik – wenn die echte Sonne nicht gut genug ist

Starshot: Leibnitzkeks am Sonnensegel – Podcast und Artikel

Falcon 9 Landung und Countdown Podcast (Ausgabe 33)

Archive

Kategorien

Meta

Letzte Kommentare

Lesezeichen

DNA als Datenspeicher wird langsam realistischer

Kommentare (5)

Abonnieren

Über das Blog

Countdown Podcast

Über den Autor

Neueste Beiträge

Wie kam Nordkorea an die Bombe – und was Zeit Online daraus machte

DNA als Datenspeicher wird langsam realistischer

Thermophotovoltaik – wenn die echte Sonne nicht gut genug ist

Starshot: Leibnitzkeks am Sonnensegel – Podcast und Artikel

Falcon 9 Landung und Countdown Podcast (Ausgabe 33)

Archive

Kategorien

Meta

Letzte Kommentare

Lesezeichen