Han-Chinesen stellen also eine sehr gute Population dar, um eine solche Studie durchzuführen und die Autoren schlossen insgesamt 19.009 von ihnen in die Untersuchung ein. In dieser Stichprobe wurden 266 verschiedene Nachnamen gezählt. Die mittlere Häufigkeit war 71 mit breiter Streuung (1-1889). Von allen Probanden wurde dann DNA extrahiert und ein ein 17 Y-STR-Systeme (Y-Filer) umfassender Haplotyp bestimmt.
Ca. 10% der Probanden mußten wegen unvollständiger Y-STR-Daten ausgeschlossen werden und 15 STR-Loci konnten letztlich in die Vorhersage der Nachnamen einbezogen werden. Insgesamt wurden 5818 verschiedene Haplotypen beobachtet, die eine gesamte genetische Diversität von 0,9986 +/- 0,0001 ausmachten. Auf jeden Nachnamen entfielen zwischen 2 bis 684 Haplotypen und genetische Diversitäten zwischen 0,285 bis 1. Von den 5818 Haplotypen waren 84% nur bei einem bestimmten Nachnamen zu finden, 637 bei zwei und 175 bei drei Namen. Der meistverbreitete Haplotyp trat bei 27 Nachnamen auf. Obwohl die meisten Nachnamen demnach mit hoher genetischer Diversität assoziiert sind, wurde eine signifikante Korrelation zwischen dem Häufigkeitsrang eines Namens und der y-chromosomalen genetischen Diversität festgestellt (p = 5,93 E-08). Dieses Ergebnis ist konsistent mit einer langen historischen Stabilität chinesischer Nachnamen einerseits und einer gewissen Substruktur und unterschiedlichen Ursprüngen innerhalb der häufigen Nachnamen andererseits.
Zur Berechung der Ko-Vererbung erstellten die Autoren schließlich zwei Modelle: ein Modell der Kosinus-Ähnlichkeit (dcos) und ein Modell der Vererbungsdistanz (dcoal). dcos mißt das Ausmaß der Ähnlichkeit zweier Vektoren (Proben) anhand ihrer Winkel im Vektorraum (statt ihrer Länge). dcoal mißt die Ähnlichkeit zweier Proben unter den Annahmen der Koaleszenztheorie, mittels derer sich die Evolution von Y-Haplotypen in der Zeit modellieren läßt: je kürzer die anhand der Y-Haplotypen geschätzten Zeit bis zum ersten gemeinsamen Vorfahren (TMRCA) zweier zufällig gewählter Individuen, desto höher ist die Wahrscheinlichkeit, daß sie einen gemeinsamen Nachnamen haben. Die mathematischen Grundlagen erspare ich uns an dieser Stelle, das würde zu weit führen und zu technisch werden. Es genügt, zu sagen, daß beide Modelle annähernd gleich gut funktionierten; dcoal war ein bißchen besser als dcos, dafür aber wesentlich aufwendiger zu berechnen.
Hier sieht man die Leistung der beiden Modelle als Graphik:
Die durchschnittliche Genauigkeit der Vorhersage der fünf häufigsten Namen, die alle über 1000 mal vorkamen, liegt zwischen 83,23% und 89,84%:
Die Autoren errechneten auch, daß ein größeres Kollektiv (also eine größere Datenbank) und die Einbeziehung von weiteren Y-STR-Loci, insbesondere solcher mit hoher Mutationsrate, die Vorhersagegenauigkeit noch erhöhen würde. Der Grenzen ihrer Studie, die in der vergleichsweise (zur Gesamtpopulation) kleinen Stichprobe und der geringen Zahl einzigartiger Nachmen (266) bestehen, sind sich die Autoren bewußt und planen, ihre Untersuchungen auf größere Datensets auszuweiten.Zusammenfassend läßt sich dennoch sagen, daß hier eine relativ zuverlässige Methode zur Vorhersage eines Nachnamens anhand von y-chromosomalen DNA-Profilen vorgestellt wurde. Daraus folgt auch, daß in der untersuchten chinesischen Subpopulation ein hohes Maß an Ko-Vererbung von Nachnamen und Y-Haplotypen besteht. Besonders interessant könnten solche Untersuchungen auch in anderen Gesellschaften sein, wo von jedem Mitglied, z.B. gleich bei Geburt, ein DNA-Profil erhoben bzw. DNA gespeichert wird (wie z.B. und überraschenderweise in Kalifornien) und daher die Datenbanken besonders umfangreich sind. In Gesellschaften mit starker Namensstabilität in der Zeit könnten sehr gute Vorhersagewerte erreicht werden, was für forensische Ermittlungen ohne andere Spur zum Tatverdächtigen extrem interessant sein könnte.
Kommentare (25)