Ende Februar findet jedes Jahr der Spurenworkshop der Spurenkommission der DGRM statt.

Der historische und aktuelle Hauptzweck der Spurenworkshops ist dabei immer, die Ergebnisse der beiden jährlichen GEDNAP-Ringversuche für forensische Labore vorzustellen und zu diskutieren. Inzwischen ist die Veranstaltung, die wirklich als ganz kleiner Workshop ihren Anfang nahm, aber zu einer großen internationalen Tagung mit Hunderten Teilnehmern und zahlreichen Industrieausstellern geworden, auf der inzwischen auch immer wissenschaftliche Vorträge präsentiert werden.

Letztes Jahr waren wir in Berlin, wo ich über die „visuelle und bildgebende Darstellung von Rückschleuderspuren und Wundkanal bei simultaner Analyse von DNA und RNA“ sprach.

Dieses Mal waren wir in Essen, dessen, ich muß annehmen, innere und gut versteckte Werte ihm 2010 zum Titel der Europäischen Kulturhauptstadt (#kognitive_Dissonanz) verholfen haben müssen.

Neben Essens eher herber und einen höhnischen Verzicht auf jegliche Gefälligkeit brutalstmöglich demonstrierender städtebaulicher Ästhetik trug auch die Tatsache nicht zu meiner entspannten Gemütslage bei, daß aus der Hölle, deren Eingang sich offenbar unter dem Kennedyplatz, an dem mein Hotel lag, befindet, so eine Art verkorkste, prekariatäre Wintermarkt/Schlittschuhdisko-Abnormität gespieen worden war. Dort nahm man sich heraus, bis halb zwei nachts „Fetenhits & Après Ski“, Techno-Schlümpfe und Dj Ötzi meets the Zillertaler Katzenquäler (oder wie dieses Gerümpel immer heißt) in einer Lautstärke darzubieten, die die Geisteshaltung der Betreiber, derzufolge es sich bei einem Schlafbedürfnis zu dieser Zeit um unerträgliches und gleich hier und jetzt zu läuterndes Spießertum handeln muß, recht unzweideutig zum Ausdruck brachte.

Die Tagung fand im Audimax der Uni Essen statt und obwohl die Organisation ansonsten gut und auch die Lokalität samt Verpflegung recht ordentlich war, war ich doch von der spartanischen und unzureichenden Präsentationstechnik enttäuscht, die ein kleines Netbook ohne Videoplayer (die Vortragenden, die ein Video zeigen wollten, hatten Pech), genau ein Mikrofon (Typ: Headset) für die Vortragenden (also jeweils mit mühseliger Übergabe zwischen den Vorträgen), und ein (!) Mikrofon für die Vorsitzenden UND den ganzen Saal mit hunderten Delegierten umfaßte. Schön war dafür das „Conference Dinner“ am Freitag in der Weststadthalle, wo es neben einem ausgezeichneten Buffet auch ausgezeichnetes Malzbier gab („tut gut“) und von wo ich mich – wie immer – verabsentierte, kurz bevor sich die Funktionsgraphen des steigenden allgemeinen Alkoholisierungsgrades und der sinkenden Tanzhemmung kreuzten 😉

Doch nun zum Programm, das auch dieses Jahr reichlich interessantes und, wie zu erwarten, wieder etliche Vorträge zu und über die Anwendung von NGS bei forensischen Fragestellungen bot, darunter die „Keynote“ von Walter Parson, worin er das Problem der Nomenklatur für die STR-Allebezeichnung beleuchtete, das sich zwangsläufig ergeben wird, wenn mittels NGS nicht nur, wie bisher, die Längen sondern die komplette Sequenzinformation der STR-Fragmente routinemäßig bestimmt wird.

Dann gab es drei Vorträge zur Analyse von DNA-Methylierungsmustern (s. Epigenetik) zur Altersbestimmung, Spurenartidentifikation und zur Differenzierung des Rauchverhaltens der Mütter von Babys, die dem SIDS erlegen sind. Besonders den Vortrag zur Altersbestimmung fand ich spannend, weil darin die Anwendung des sog. „Random Forest Modells“ (RFM) zur Vorhersage des biologischen Alters anhand des Methyierungsstatus’ vieler verschiedener CpGs (Stellen im Genom mit altersabhängig differentieller Methylierung) vorgestellt wurde. Im Gegensatz zu anderen Regressions- und Klassifizierungsverfahren zeichnet sich das RFM als besonders genau und robust gegen Überanpassung aus. Es ist ein Maschinen-Lern-Algorithmus, der auf der Verwendung zahreicher randomisierter Entscheidungsbäume (daher Forest = Wald) beruht. Klingt bizarr und abstrakt?

Es folgt ein weitschweifiger Exkurs:

Stellt Euch vor, Ihr guckt gerne Filme, seid aber sehr unentschlossen und könnt nie einschätzen, ob Euch ein Film gefallen wird. Also fragt ihr einen Freund, den Fred, ob er Euch hilft. Dafür müßt ihr ihn aber erstmal trainieren, indem Ihr mit ihm einen Stapel Filme, die Ihr schon kennt, durchgeht und ihm sagt, welche Euch gefallen und welche nicht (das entspricht einem gelabelten Trainingsset). Wenn Ihr Fred dann fragt, ob Euch wohl Film X gefallen wird, spielt er mit Euch eine Art 20-Fragen/Wer bin ich?-Spiel mit der IMDB und fragt Sachen wie: “Ist X ein romantischer Film?”, “Kommt Christian Bale in X vor?” usw. und am Ende gibt er eine Ja/Nein-Antwort. Fred ist jetzt ein Entscheidungsbaum für Eure Filmvorlieben.

Fred ist aber nur ein Mensch und kann Eure Vorlieben nicht immer gut generalisieren (er neigt zur Überanpassung) und deshalb holt Ihr noch drei Freunde, Hanni, Nanni und Kai, dazu und statt nur Fred zu vertrauen, stützt Ihr Eure Entscheidung für oder gegen X auf die Aussage aller vier. Jetzt habt Ihr schon einen Entscheidungswald (forest).

Wenn aber alle Freunde gleich trainiert sind, machen sie alle dasselbe (und Ihr seid Euch ja Eurer Vorlieben selbst nicht so sicher), deshalb bekommen sie alle ein leicht unterschiedliches Training. Vielleicht habt Ihr Fred gesagt, daß Ihr Fight Club super fandet, wart aber an diesem Tag einfach nur schräg drauf, so daß vielleicht nicht alle Freunde die Information, daß Ihr Fight Club mögt, nutzen sollten. Oder Ihr habt Fred erzählt, daß ihr Herr der Ringe wirklich außerordentlich gut fandet, so daß auch die anderen Freunde Herr der Ringe stärker gewichten sollten. Also statt allen Freunden die gleiche Information zu geben, bekommen sie alle leicht abgeänderte Informationen, ohne daß Ihr grundsätzliche mag ich/mag ich nicht-Entscheidungen antastet, Ihr sagt nur manchmal dazu, daß ihr diesen oder jenen Film mehr oder weniger mögt oder nicht mögt. (Die Freunde haben jetzt also “ge-bootstrapped-te” Versionen der Original-Trainingsdaten erhalten.)

Indem Ihr diesen Freunde-Wald nutzt, hofft Ihr, daß, während jeder einzelne Freund Euch leicht idiosynkratische Empfehlungen gibt (Fred denkt, Ihr mögt Prügelfilme mehr als Ihr es wirklich tut, Hanni meint, Ihr mögt besonders Marvel-Comicverfilmungen und Kai glaubt, Ihr findet einfach alles Mist), sich die Fehler, die sie machen, im Durchschnitt rausmitteln. (Sie sind jetzt ein “bagged forest” Eurer Filmvorlieben).

Es gibt aber immer noch ein Problem mit den Daten: Obwohl Ihr Fight Club und 12 Monkeys mochtet, war das nicht, weil Ihr Filme mögt, in denen Brat Pitt mitspielt, sondern vielleicht aus anderen Gründen. Ihr wollt also nicht, daß die Freunde Ihre Entscheidung davon abhängig machen, ob Pitt in einem Film mitspielt. Wenn also ein Freund eine Frage an die IMDB stellt, darf er nur auf eine zufällige Auswahl der möglichen Fragen zurückgreifen. (Beim Aufbau des Entscheidungsbaums wird an jedem Knotenpunkt etwas Zufälligkeit bei der Auswahl des Attributs, das die Abzweigung bestimmt, zugelassen, z.B. indem man das Attribut per Zufall auswählt.) Die Freunde dürfen also nicht immer, wenn sie wollen, fragen, ob Brad Pitt in dem Film mitspielt. Und damit sind die Freunde ein “random forest”-Entscheidungsmodell 🙂

So, Ende dieses weitschweifigen Exkurses…

 

Es gibt zwar noch ein paar Probleme, aber die RFM-Methode funktioniert schon ganz gut und methylierungsbasierte Altersvorhersagen mit einer Genauigkeit von +/- 5 Jahre sind durchaus drin.

Auch cool war ein Vortrag, dessen Fazit zwar war: „klappt nicht“, dessen zu Grunde liegende Idee ich aber sehr interessant fand. Es ging um die Unterscheidung forensisch relevanter Fliegenarten (Brachycera), die, je nach Entwicklungsstadium, morphologisch nur von extrem erfahrenen Entomologen halbwegs zuverlässig durchgeführt werden kann. Statt sich also die Maden unter der Lupe zu betrachten, war die Idee, das unterschiedliche Schmelzverhalten der DNA der verschiedenen Spezies zu untersuchen. Abhängig vom GC-Basengehalt schmilzt (denaturiert) ein DNA-Doppelstrang bei höherer oder niedrigerer Temperatur, so daß sich unterschiede bei der DNA-Basenzusammensetzung, die, so die Hypothese, auf verschiedene Arten schließen lassen, mittels der hochauflösenden Schmelzkurvenanalyse (HRM) detektieren lassen. Dazu hatte die Gruppe zig Exemplare von 33 verschiedenen Fliegenarten aus 7 relevanten Familien gesammelt, geschreddert und ihre DNA extrahiert. Daraus haben sie bestimmte Bereiche mittels PCR vervielfältigt und deren Schmelzverhalten mittels HRM untersucht und leider feststellen müssen, daß die Unterschiede zwischen Individuen derselben Art manchmal größer waren, als zwischen Individuen verschiedener Arten, so daß sie zum Fazit kamen, daß man diese Methode in der forensischen Entomologie nicht nutzen kann. An dieser Stelle kann man noch mal betonen, daß auch negative Ergebnisse gut und wichtig sind und es gibt inzwischen sogar ein Journal für negative Ergebnisse (#publication bias).

Dieses Mal waren übrigens auch meine eigenen Forschungsschwerpunkte besonders gut beim Spurenworkshop vertreten, denn nicht nur präsentierte meine Doktorandin in einem sehr guten Vortrag ihre über Jahre erarbeiteten (und kürzlich publizierten) Ergebnisse zur micro-RNA-basierten Identifikation forensisch relevanter Körperflüssigkeiten (mehr dazu später),

talk

sondern früh am Samstagmorgen gab es einen ganzen Block von insgesamt vier Vorträgen zur molekularen Ballistik, wovon einen meine andere Doktorandin (“RNA/DNA  Ko-Analyse  an  gealterten  Spurensicherungsfolien  von  Händen  der  Opfer  tödlicher Schussverletzungen”), zwei meine Kollaborationspartner (zur „Reproduzierbarkeit von experimentellem Backspatter im Waffenlauf“ und über den GunSwab, ein Mittel zur Sicherung von Rückschleuderspuren aus dem Inneren von Schußwaffen) und einen ich selbst,

talk cc

darüber, wie weit Backspatter eigentlich spritzt (auch dazu später mehr) gehalten habe. Wir haben, wie es im Neudeutsch Adoleszenter heißt, gerockt 😉

Also, wieder viel gelernt, viel geredet und viel zum drüber Nachdenken. Beim nächsten Mal geht es dann nach Gießen, wo laut dem Gießener Forensiker, der uns offiziell dorthin eingeladen hat, die größte Menschenansammlung nach 19 Uhr die „drei Schwätzer“ sind und wo alles, was nach einer Person heißen kann, nach der einzigen Persönlichkeit aus Gießen heißt, nach der man überhaupt etwas benennen würde 😉 Na dann….

flattr this!

Kommentare (3)

  1. #1 radix100
    27/02/2016

    Es gibt zwar noch ein paar Probleme, aber die RFM-Methode funktioniert schon ganz gut und methylierungsbasierte Altersvorhersagen mit einer Genauigkeit von +/- 5 Jahre sind durchaus drin

    radix fagt, wann muss ich danach wohl in die Urne? Zu gern würde ich mich entsprechen einrichten, damit die Erben realistisch planen könne.
    Habe Text mit grooßem Interesse alles gelesen.

  2. #2 zimtspinne
    27/02/2016

    Ich habe auch mal sicherheitshalber alles zweimal gelesen.

    Cube, Planet der Affen, Gattaca, Schweigen der Lämmer, Name der Rose, Fear and Loathing in Las Vegas wären da so meine Allzeit-Lieblingsfilme, weil ich das Gefühl hatte, man sollte hier seine Lieblingsfilme nennen, um zu zeigen, dass das nicht so einfach durchschaubar ist, warum und weshalb.

    Zur Altersbestimmung per Methylierung habe ich ein Fragezeichen im Kopf.

    Was ich mir jetzt als Schwierigkeit vorstelle…. wenn der Tote, der zu identifizieren ist, nun beispielsweise irgendwann in seinem Leben einmal ein Trauma hatte oder eine Krebserkrankung durchmachte oder Hochleistungssportler war, dann wärs doch möglich, die Methylierung ist “explodiert”, also anders verlaufen als normalerweise bei keinen besonderen Vorkommnissen. Krebserkrankung mit vollem Behandlungsprogramm lässt Menschen offenbar schneller altern, sie fühlen sich, als ob sie 10 Jahre gealtert wären und das müsste sich doch auch aufs Epigenom auswirken und damit die korrekte Altersbestimmung erschweren.

    Dann kommt beim DNA-stick oder Genomchip noch folgendes Problem hinzu: Es ist nur eine Momentaufnahme. Lebensgewohnheiten, Krankheiten, Stress, Krisen, Traumata, alles hinterlässt Spuren und schreibt das Epigenom wieder um. Der USB stick müsste ständig aktualisiert werden.

    Wären die Menschen damit einverstanden?
    Eines Morgens schrillt dann der quietschend rote Alarmknopf los und teilt freundlich-streng mit: Achtung, Sie haben seit heute eine verdächtige Raumforderung in der Lunge, alla hopp die Zigarette aus und ab ins Labor zur Tumorsequenzierung!

    Natürlich kennt man dann auch alle seine Gendefekte und muss natürlich auch bei der Partnerwahl den stick abgleichen…. oder ins Institut, um die Kompatibilität prüfen zu lassen? Das wird kompliziert.

    Ich finde es ja jetzt schon krass, dass man sich mit Chorea Huntington ausrechnen könnte, wann man stirbt und frag mich, wieviele das in Anspruch nehmen (würden).

    Gleichzeitig find ich es auch total spannend und faszinierend, aber ich glaube, die meisten Menschen kriegen einen Herzkasper, wenn sie damit konfrontiert werden. Werden? ohje.

    Berichte nach dem Ereignis aber bitte genau, was uns dann demnächst alles blüht! 😉

  3. #3 Fex
    12/03/2016

    Das Random Forest Modell hat, neben der Robustheit, auch noch (mindestend) einen zusätzlichen Vorteil gegenüber vielen anderen maschinellen Lernverfahren:
    Das Modell ist gut interpretierbar.
    Man kann sich ansehen, welche Features des Trainingsdatensatzes oft für Entscheidungen in den Entscheidungsbäumen genutzt wurden. Dies kann ein Hinweis auf wichtige Variablen für das zugrundeliegende Problem geben.

    Dafür ist ein ‘Variable Importance Plot’ sehr gut, der dies grafisch darstellt. Man könnte damit Hinweise bekommen, welche Methylierungen sehr gut auf das Alter hindeuten können und daraus eventuell neue Fragestellungen ableiten.