Zusammen mit meinem Kollegen Marc Sauter habe ich dazu jedenfalls folgendes geschrieben:
Microsoft kauft zehn Millionen Stränge synthetischer DNA
Weniger ist manchmal mehr: Microsoft und Twist Bioscience haben sich zusammengetan, um digitale Informationen auf künstlicher DNA zu speichern. Vor allem die extreme Datendichte beeindruckt.
Twist Bioscience hat zehn Millionen Stränge synthetischer DNA an Microsoft verkauft, wie das Silicon-Valley-Startup bekannt gegeben hat. Das Unternehmen arbeitet daran, digital Daten auf den Desoxyribonukleinsäure-Molekülen zu sichern, die alle Lebewesen als Genspeicher in ihren Körperzellen tragen. In dem wissenschaftlichen Aufsatz A DNA-Based Archival Storage System (PDF) beschreibt Microsoft Research, wie sich künstliche DNA in Zukunft prinzipiell als Speichermedium nutzen lassen soll.
Zu den Vorteilen von DNA zählen die Haltbarkeit und die Speicherdichte: Die Halbwertszeit soll über 500 Jahre betragen. Laut einer Studie der American Chemical Society seien selbst aus 2.000 Jahre alter DNA noch Informationen ohne Defekte extrahierbar. Auf ein Gramm DNA umgerechnet, wären das ein Zettabyte oder eine Milliarde Terabyte an Informationen. Pro Kubikmillimeter könne Desoxyribonukleinsäure ein Exabyte an Daten speichern – eine Milliarde Gigabyte. Optische und magnetische Speicher in den Labors kommen derzeit bestenfalls auf 100 Gigabyte pro Kubikmillimeter. Noch sind Microsoft und Twist aber viele Jahre von einem kommerziellen Produkt entfernt.
Als Idee schwebt den Forschern vor, die Nukleotiden genannten Bausteine, die ein Doppelhelix-Molekül bilden, als Informationsträger für zu archivierende Daten zu verwenden. Bei einem initialen Test im Herbst sei es Microsoft Research gemeinsam mit Twist Bioscience gelungen, 100 Prozent der auf synthetischen DNA-Strängen abgelegten Informationen auszulesen. Anders als bei früheren Verfahren konnten die Forscher dabei gezielt auf beliebige Daten zugreifen. Bisher musste immer die gesamte DNA im Speicher sequenziert werden, um an den Inhalt einer einzigen Datei zu gelangen.
Die DNA besteht dabei nicht aus einem einzigen Strang, sondern aus vielen kurzen Abschnitten aus 200 Nukleotiden, von denen etwa 120 Daten kodieren. Längere Sequenzen lassen sich zur Zeit nicht künstlich synthetisieren. In den DNA des Menschen sind die Ketten über 100 Mal so lang.
Noch ist der Auslese-Prozess fehleranfällig
Die Sequenzierung erfolgt durch Polymerase-Kettenreaktionen. Das ist ein chemischer Vorgang, der durch biologische Enzyme in Gang gesetzt wird. Die Kettenreaktion dient dazu, gezielt vorhandene DNA-Sequenzen in einer Lösung zu vervielfältigen. Erst die vervielfältigten Stränge werden sequenziert. Um knapp 17.000 Stränge mit je 120 Nukleotiden auszulesen, mussten im Labor die Sequenzen von 20,6 Millionen Strängen ausgelesen werden. Ein Prozess, der auf dem heutigen Stand der Technik mehrere Stunden dauert. Damit gezielt nur Stränge ausgelesen werden, die auch die benötigten Daten beinhalten, werden alle Stränge mit Adressen versehen. Alle DNA-Stränge, die den falschen Anfang haben, werden nicht dupliziert und dadurch auch nie ausgelesen.
Der Prozess des Auslesens ist sehr fehleranfällig. Tatsächlich gelang es den Forschern nie, Daten aus den vorhandenen Strängen vollständig wieder herzustellen, weil sich immer wieder einzelne Fehler einschlichen oder ganze Stränge verlorengingen. Um trotzdem die Daten zu rekonstruieren, müssen redundante Datenstrukturen benutzt werden. Eine Möglichkeit besteht darin, dass die erste Hälfte eines Datenstrangs identisch mit der zweiten Hälfte des letzten Datenstrangs ist. Effizienter ist aber eine XOR-Kodierung.
Wie in einem Raid-5 wird aus je zwei Strängen A und B mit unterschiedlichen Daten durch eine XOR-Verknüpfung ein dritter Strang erzeugt. Wenn jetzt einer der beiden ursprünglichen Stränge verloren geht, kann dessen Inhalt mit dem dritten Strang rekonstruiert werden. Besonders wichtige Daten können auch noch besser geschützt werden, indem sie mit mehreren anderen Strängen verknüpft werden. Wenn Daten im Strang A sehr wichtig sind, dann können durch XOR-Verknüpfung mit weiteren Strängen noch mehr solche Sicherheitskopien hinterlegt werden.
Beispielsweise können Fehler im Header einer jpg-Datei die gesamte Datei unlesbar machen, die Fehler in den eigentlichen Bilddaten führen dagegen schlimmstenfalls zu einzelnen Artefakten und sind im Allgemeinen kaum wahrnehmbar. Für diesen Bereich werden dann nicht mehr so viele Backups benötigt wie für den Header, wodurch die Speicherdichte steigt. Zur Zeit lassen sich mit der Technik nur wenige Hundert Kilobyte speichern, und das Auslesen der Daten nimmt mehrere Stunde in Anspruch. Durch die ständige Verbesserung der DNA-Sequenzierung und Synthese in den vergangenen Jahren hofft Microsoft aber auf eine vielversprechende Zukunft.
Kommentare (5)