Ich kann mit hoher Wahrscheinlichkeit erraten, wie dein Ur-Ur-Ur Großvater – väterlicherseits – mit Nachnamen hieß: Genauso wie du. Was trivial klingt hat kulturelle Hintergründe. Traditionell nehmen Ehepaare bei der Hochzeit den Nachnamen des Bräutigams an, und die Kinder heißen dann ebenso. Nicht nur der Nachname wird so über Generationen weitergegeben, auch das Y-Chromosom männlicher Nachkommen stammt immer vom Vater, und der hat es von dessen Vater, und so weiter.
Genealogie heißt die Erforschung der Abstammungsverhältnisse. Es ist eine Hilfswissenschaft, die wohl vor allem von Großvätern mit viel Zeit ausgeübt wird, und in den USA überaus populär ist. Seit ein paar Jahren wird die Genealogie durch moderne DNA Sequenziermethoden unterstützt. In großen, öffentlichen Datenbanken wie Ysearch und SMGF werden Informationen zu kurzen, sich wiederholenden aber individuell sehr unterschiedlichen DNA Sequenzen des Y-Chromosoms gespeichert, sowie die dazugehörigen Nachnamen. Das hilft den Garagenahnenforschern, etwas über die eigenen Wurzeln heraus zu finden. Man lässt kommerzielle Unternehmen die eigenen sogenannten Short Tandem Repeat (STR) Regionen sequenzieren, und vergleicht die Ergebnisse über eine einfach Eingabemaske dann mit den Einträgen in den Sequenzdatenbanken.
Den Nachnamen aus Sequenzdaten bestimmen
DNA Sequenziermethoden werden nicht nur zur privaten Ahnenforschung genutzt. Es gibt große, wissenschaftliche Studien mit dutzenden bis tausenden Teilnehmern, bei denen die DNA der Probanden möglichst komplett sequnenziert wird, beispielsweise um einen Eindruck von der generellen Variabilität menschlicher DNA zu bekommen, oder um bestimmte phänotypische Eigenschaften Unterschieden in der DNA zu zu ordnen. Die Teilnehmer dieser Studien werden in den allermeisten Fällen anonymisiert, so dass durch die Analyse der DNA Sequenzen kein Rückschluss auf die Identität des Teilnehmers möglich ist – oder möglich sein sollte.
Letzte Woche wurde ein Paper in Science publiziert (Gymrek et al.), in dem berechnet wurde, wie hoch das Risiko ist, den Namen eines Probanden zu identifizieren – nur durch die Nutzung öffentlich zugänglicher Datenbanken und durch Internetsuchen. Die Autoren zeigen an einem Testset, dass ihr Algorithmus optimal eingestellt 12% der Namen korrekt identifiziert (5% falsch positiv, 83% unbekannt). In Kombination mit relativ unspezifischen Informationen wie Geburtsjahr und bewohntem US-Bundesstaat war es den Autoren möglich, die Zahl der möglichen Spender einer DNA Probe auf durchschnittlich ein Dutzend Personen einzuschränken.
Die Ergebnisse der Gruppe aus israelischen und US-amerikanischen Forschern sind nicht erschreckend, sie zeigen aber, das die Anonymität von Teilnehmern an großen DNA-Sequenzierstudien unter Umständen nicht gewahrt bleibt, vor allem wenn zusätzliche persönliche Informationen verfügbar sind, auch wenn diese relativ allgemein sind, wie Alter und Nationalität.
Weniger ist mehr: Datenschutz und kommerzielle DNA-Analysen
Es gibt noch eine dritte Gruppe Menschen, die Teile ihrer DNA sequenzieren lassen. Während das Ziel der Ahnenforscher ist, über STRs die eigene Abstammung zu rekonstruieren, sind ein Großteil der privaten Kunden von Sequenzierunternehmen auf etwas ganz anderes aus: Sie interessieren sich für die Wahrscheinlichkeit in Zukunft an bestimmten Krankheiten zu leiden. Dazu werden sogenannte SNPs analysiert, also ebenfalls kurze DNA Sequenzen, die mit dem Auftreten von Krankheiten assoziiert sind. Menschen, die sich durch die Sequenzierung von SNPs über Krankheitsrisiken informieren haben oft gute Gründe, ihre Anonymität zu wahren.
Wie hoch ist also das Risiko, dass durch die Analyse dieser SNP-Daten Rückschlüsse auf die Person möglich sind? Dazu habe ich Bastian Greshake befragt, Gründer von openSNP, einer Plattform auf der die Ergebnisse solcher SNP-Analysen publiziert, analysiert und diskutiert werben können.
WeiterGen: Bastian, ist die Anonymität der Benutzern von openSNP nach der Publikation des Gymrek-Papers noch gewährleistet?
Bastian Greshake: Ich vermute das es aktuell nicht so einfach wäre die Benutzer von openSNP mit Nachnamen anreden zu können (also wenn sie ihn nicht angegeben haben). Komplett ausschliessen kann man das natürlich nicht. In dem Paper dort nutzen sie die Haplotypen von bis zu 60 Y-chromosomalen Short Tandem Repeats, darin steckt, meiner Ansicht nach, um einiges mehr an Ancestry-Information, als man über die SNPs die 23andMe auf dem Y-Chromosom testet bekommt (openSNP nutzt hauptsächlich SNP-Daten von 23andMe-Analysen, WG).
WG: Was wäre nötig, um die Anonymität der openSNP Benutzer zu gefährden?
BG: Falls entsprechende Referenzdaten zur Verfügung stünden, könnte man theoretisch von den SNPs aus die Y-STRs imputen, also aus den SNPs die Y-STRs vorhersagen und dann die in der Publikation benutzten Methoden verwenden um die Identität zu ermitteln. Alternativ könnte man direkt Namensdatenbanken verwenden, die SNP-Daten anstelle von STRs verwenden. Diese sind aber derzeit noch nicht weit verbreitet, oder zumindest nicht öffentlich.
WG: Das Risiko, dass aktuell aus SNP-Daten Rückschlüsse auf Einzelpersonen gezogen werden können ist also sehr gering Was können openSNP Kunden dennoch selbst tun, um ihre Anonymität zu wahren?
BG: Ganz generell gilt: Je weniger Metadaten über die Person mit den SNP-Daten verknüpft sind desto geringer die Wahrscheinlichkeit einer Zuordnung. Um die eigene Anonymität zu wahren, sollte man also beispielsweise darauf verzichten sein Alter und seinen Wohnort anzugeben. Angaben dazu sind auf openSNP freiwillig.
Weitere Artikel im Blog zum Thema:
-
Es wird immer billiger: Kommerzielle DNA Sequenzierung zur Vorhersage von Krankheiten
-
Können Gene Leben retten? Debatte über personalisierte DNA-Analyse
-
Ein Haufen Daten und doch kein Müll: Das ENCODE-Projekt
-
1000 Genome sequenziert und immer noch nichts passiert
-
Die Risiken des Wissens – Wie sind meine DNA-Daten geschützt?
-
Krankheiten vorhersagen: 23andMe, deCODEme und Navigenics
Titelbild Rosie Cotton (CC BY-NC-SA 2.0).
Gymrek, M., McGuire, A., Golan, D., Halperin, E., & Erlich, Y. (2013). Identifying Personal Genomes by Surname Inference Science, 339 (6117), 321-324 DOI: 10.1126/science.1229566
Kommentare (10)