Ende Februar findet jedes Jahr der Spurenworkshop der Spurenkommission der DGRM statt.

Der historische und aktuelle Hauptzweck der Spurenworkshops ist dabei immer, die Ergebnisse der beiden jährlichen GEDNAP-Ringversuche für forensische Labore vorzustellen und zu diskutieren. Inzwischen ist die Veranstaltung, die wirklich als ganz kleiner Workshop ihren Anfang nahm, aber zu einer großen internationalen Tagung mit Hunderten Teilnehmern und zahlreichen Industrieausstellern geworden, auf der inzwischen auch immer wissenschaftliche Vorträge präsentiert werden.

Letztes Jahr waren wir in Berlin, wo ich über die „visuelle und bildgebende Darstellung von Rückschleuderspuren und Wundkanal bei simultaner Analyse von DNA und RNA“ sprach.

Dieses Mal waren wir in Essen, dessen, ich muß annehmen, innere und gut versteckte Werte ihm 2010 zum Titel der Europäischen Kulturhauptstadt (#kognitive_Dissonanz) verholfen haben müssen.

Neben Essens eher herber und einen höhnischen Verzicht auf jegliche Gefälligkeit brutalstmöglich demonstrierender städtebaulicher Ästhetik trug auch die Tatsache nicht zu meiner entspannten Gemütslage bei, daß aus der Hölle, deren Eingang sich offenbar unter dem Kennedyplatz, an dem mein Hotel lag, befindet, so eine Art verkorkste, prekariatäre Wintermarkt/Schlittschuhdisko-Abnormität gespieen worden war. Dort nahm man sich heraus, bis halb zwei nachts „Fetenhits & Après Ski“, Techno-Schlümpfe und Dj Ötzi meets the Zillertaler Katzenquäler (oder wie dieses Gerümpel immer heißt) in einer Lautstärke darzubieten, die die Geisteshaltung der Betreiber, derzufolge es sich bei einem Schlafbedürfnis zu dieser Zeit um unerträgliches und gleich hier und jetzt zu läuterndes Spießertum handeln muß, recht unzweideutig zum Ausdruck brachte.

Die Tagung fand im Audimax der Uni Essen statt und obwohl die Organisation ansonsten gut und auch die Lokalität samt Verpflegung recht ordentlich war, war ich doch von der spartanischen und unzureichenden Präsentationstechnik enttäuscht, die ein kleines Netbook ohne Videoplayer (die Vortragenden, die ein Video zeigen wollten, hatten Pech), genau ein Mikrofon (Typ: Headset) für die Vortragenden (also jeweils mit mühseliger Übergabe zwischen den Vorträgen), und ein (!) Mikrofon für die Vorsitzenden UND den ganzen Saal mit hunderten Delegierten umfaßte. Schön war dafür das „Conference Dinner“ am Freitag in der Weststadthalle, wo es neben einem ausgezeichneten Buffet auch ausgezeichnetes Malzbier gab („tut gut“) und von wo ich mich – wie immer – verabsentierte, kurz bevor sich die Funktionsgraphen des steigenden allgemeinen Alkoholisierungsgrades und der sinkenden Tanzhemmung kreuzten 😉

Doch nun zum Programm, das auch dieses Jahr reichlich interessantes und, wie zu erwarten, wieder etliche Vorträge zu und über die Anwendung von NGS bei forensischen Fragestellungen bot, darunter die „Keynote“ von Walter Parson, worin er das Problem der Nomenklatur für die STR-Allebezeichnung beleuchtete, das sich zwangsläufig ergeben wird, wenn mittels NGS nicht nur, wie bisher, die Längen sondern die komplette Sequenzinformation der STR-Fragmente routinemäßig bestimmt wird.

Dann gab es drei Vorträge zur Analyse von DNA-Methylierungsmustern (s. Epigenetik) zur Altersbestimmung, Spurenartidentifikation und zur Differenzierung des Rauchverhaltens der Mütter von Babys, die dem SIDS erlegen sind. Besonders den Vortrag zur Altersbestimmung fand ich spannend, weil darin die Anwendung des sog. „Random Forest Modells“ (RFM) zur Vorhersage des biologischen Alters anhand des Methyierungsstatus’ vieler verschiedener CpGs (Stellen im Genom mit altersabhängig differentieller Methylierung) vorgestellt wurde. Im Gegensatz zu anderen Regressions- und Klassifizierungsverfahren zeichnet sich das RFM als besonders genau und robust gegen Überanpassung aus. Es ist ein Maschinen-Lern-Algorithmus, der auf der Verwendung zahreicher randomisierter Entscheidungsbäume (daher Forest = Wald) beruht. Klingt bizarr und abstrakt?

Es folgt ein weitschweifiger Exkurs:

Stellt Euch vor, Ihr guckt gerne Filme, seid aber sehr unentschlossen und könnt nie einschätzen, ob Euch ein Film gefallen wird. Also fragt ihr einen Freund, den Fred, ob er Euch hilft. Dafür müßt ihr ihn aber erstmal trainieren, indem Ihr mit ihm einen Stapel Filme, die Ihr schon kennt, durchgeht und ihm sagt, welche Euch gefallen und welche nicht (das entspricht einem gelabelten Trainingsset). Wenn Ihr Fred dann fragt, ob Euch wohl Film X gefallen wird, spielt er mit Euch eine Art 20-Fragen/Wer bin ich?-Spiel mit der IMDB und fragt Sachen wie: “Ist X ein romantischer Film?”, “Kommt Christian Bale in X vor?” usw. und am Ende gibt er eine Ja/Nein-Antwort. Fred ist jetzt ein Entscheidungsbaum für Eure Filmvorlieben.

Fred ist aber nur ein Mensch und kann Eure Vorlieben nicht immer gut generalisieren (er neigt zur Überanpassung) und deshalb holt Ihr noch drei Freunde, Hanni, Nanni und Kai, dazu und statt nur Fred zu vertrauen, stützt Ihr Eure Entscheidung für oder gegen X auf die Aussage aller vier. Jetzt habt Ihr schon einen Entscheidungswald (forest).

Wenn aber alle Freunde gleich trainiert sind, machen sie alle dasselbe (und Ihr seid Euch ja Eurer Vorlieben selbst nicht so sicher), deshalb bekommen sie alle ein leicht unterschiedliches Training. Vielleicht habt Ihr Fred gesagt, daß Ihr Fight Club super fandet, wart aber an diesem Tag einfach nur schräg drauf, so daß vielleicht nicht alle Freunde die Information, daß Ihr Fight Club mögt, nutzen sollten. Oder Ihr habt Fred erzählt, daß ihr Herr der Ringe wirklich außerordentlich gut fandet, so daß auch die anderen Freunde Herr der Ringe stärker gewichten sollten. Also statt allen Freunden die gleiche Information zu geben, bekommen sie alle leicht abgeänderte Informationen, ohne daß Ihr grundsätzliche mag ich/mag ich nicht-Entscheidungen antastet, Ihr sagt nur manchmal dazu, daß ihr diesen oder jenen Film mehr oder weniger mögt oder nicht mögt. (Die Freunde haben jetzt also “ge-bootstrapped-te” Versionen der Original-Trainingsdaten erhalten.)

1 / 2 / Auf einer Seite lesen

Kommentare (3)

  1. #1 radix100
    27/02/2016

    Es gibt zwar noch ein paar Probleme, aber die RFM-Methode funktioniert schon ganz gut und methylierungsbasierte Altersvorhersagen mit einer Genauigkeit von +/- 5 Jahre sind durchaus drin

    radix fagt, wann muss ich danach wohl in die Urne? Zu gern würde ich mich entsprechen einrichten, damit die Erben realistisch planen könne.
    Habe Text mit grooßem Interesse alles gelesen.

  2. #2 zimtspinne
    27/02/2016

    Ich habe auch mal sicherheitshalber alles zweimal gelesen.

    Cube, Planet der Affen, Gattaca, Schweigen der Lämmer, Name der Rose, Fear and Loathing in Las Vegas wären da so meine Allzeit-Lieblingsfilme, weil ich das Gefühl hatte, man sollte hier seine Lieblingsfilme nennen, um zu zeigen, dass das nicht so einfach durchschaubar ist, warum und weshalb.

    Zur Altersbestimmung per Methylierung habe ich ein Fragezeichen im Kopf.

    Was ich mir jetzt als Schwierigkeit vorstelle…. wenn der Tote, der zu identifizieren ist, nun beispielsweise irgendwann in seinem Leben einmal ein Trauma hatte oder eine Krebserkrankung durchmachte oder Hochleistungssportler war, dann wärs doch möglich, die Methylierung ist “explodiert”, also anders verlaufen als normalerweise bei keinen besonderen Vorkommnissen. Krebserkrankung mit vollem Behandlungsprogramm lässt Menschen offenbar schneller altern, sie fühlen sich, als ob sie 10 Jahre gealtert wären und das müsste sich doch auch aufs Epigenom auswirken und damit die korrekte Altersbestimmung erschweren.

    Dann kommt beim DNA-stick oder Genomchip noch folgendes Problem hinzu: Es ist nur eine Momentaufnahme. Lebensgewohnheiten, Krankheiten, Stress, Krisen, Traumata, alles hinterlässt Spuren und schreibt das Epigenom wieder um. Der USB stick müsste ständig aktualisiert werden.

    Wären die Menschen damit einverstanden?
    Eines Morgens schrillt dann der quietschend rote Alarmknopf los und teilt freundlich-streng mit: Achtung, Sie haben seit heute eine verdächtige Raumforderung in der Lunge, alla hopp die Zigarette aus und ab ins Labor zur Tumorsequenzierung!

    Natürlich kennt man dann auch alle seine Gendefekte und muss natürlich auch bei der Partnerwahl den stick abgleichen…. oder ins Institut, um die Kompatibilität prüfen zu lassen? Das wird kompliziert.

    Ich finde es ja jetzt schon krass, dass man sich mit Chorea Huntington ausrechnen könnte, wann man stirbt und frag mich, wieviele das in Anspruch nehmen (würden).

    Gleichzeitig find ich es auch total spannend und faszinierend, aber ich glaube, die meisten Menschen kriegen einen Herzkasper, wenn sie damit konfrontiert werden. Werden? ohje.

    Berichte nach dem Ereignis aber bitte genau, was uns dann demnächst alles blüht! 😉

  3. #3 Fex
    12/03/2016

    Das Random Forest Modell hat, neben der Robustheit, auch noch (mindestend) einen zusätzlichen Vorteil gegenüber vielen anderen maschinellen Lernverfahren:
    Das Modell ist gut interpretierbar.
    Man kann sich ansehen, welche Features des Trainingsdatensatzes oft für Entscheidungen in den Entscheidungsbäumen genutzt wurden. Dies kann ein Hinweis auf wichtige Variablen für das zugrundeliegende Problem geben.

    Dafür ist ein ‘Variable Importance Plot’ sehr gut, der dies grafisch darstellt. Man könnte damit Hinweise bekommen, welche Methylierungen sehr gut auf das Alter hindeuten können und daraus eventuell neue Fragestellungen ableiten.