Fred ist aber nur ein Mensch und kann Eure Vorlieben nicht immer gut generalisieren (er neigt zur Überanpassung) und deshalb holt Ihr noch drei Freunde, Hanni, Nanni und Kai, dazu und statt nur Fred zu vertrauen, stützt Ihr Eure Entscheidung für oder gegen X auf die Aussage aller vier. Jetzt habt Ihr schon einen Entscheidungswald (forest).

Wenn aber alle Freunde gleich trainiert sind, machen sie alle dasselbe (und Ihr seid Euch ja Eurer Vorlieben selbst nicht so sicher), deshalb bekommen sie alle ein leicht unterschiedliches Training. Vielleicht habt Ihr Fred gesagt, daß Ihr Fight Club super fandet, wart aber an diesem Tag einfach nur schräg drauf, so daß vielleicht nicht alle Freunde die Information, daß Ihr Fight Club mögt, nutzen sollten. Oder Ihr habt Fred erzählt, daß ihr Herr der Ringe wirklich außerordentlich gut fandet, so daß auch die anderen Freunde Herr der Ringe stärker gewichten sollten. Also statt allen Freunden die gleiche Information zu geben, bekommen sie alle leicht abgeänderte Informationen, ohne daß Ihr grundsätzliche mag ich/mag ich nicht-Entscheidungen antastet, Ihr sagt nur manchmal dazu, daß ihr diesen oder jenen Film mehr oder weniger mögt oder nicht mögt. (Die Freunde haben jetzt also “ge-bootstrapped-te” Versionen der Original-Trainingsdaten erhalten.)

Indem Ihr diesen Freunde-Wald nutzt, hofft Ihr, daß, während jeder einzelne Freund Euch leicht idiosynkratische Empfehlungen gibt (Fred denkt, Ihr mögt Prügelfilme mehr als Ihr es wirklich tut, Hanni meint, Ihr mögt besonders Marvel-Comicverfilmungen und Kai glaubt, Ihr findet einfach alles Mist), sich die Fehler, die sie machen, im Durchschnitt rausmitteln. (Sie sind jetzt ein “bagged forest” Eurer Filmvorlieben).

Es gibt aber immer noch ein Problem mit den Daten: Obwohl Ihr Fight Club und 12 Monkeys mochtet, war das nicht, weil Ihr Filme mögt, in denen Brat Pitt mitspielt, sondern vielleicht aus anderen Gründen. Ihr wollt also nicht, daß die Freunde Ihre Entscheidung davon abhängig machen, ob Pitt in einem Film mitspielt. Wenn also ein Freund eine Frage an die IMDB stellt, darf er nur auf eine zufällige Auswahl der möglichen Fragen zurückgreifen. (Beim Aufbau des Entscheidungsbaums wird an jedem Knotenpunkt etwas Zufälligkeit bei der Auswahl des Attributs, das die Abzweigung bestimmt, zugelassen, z.B. indem man das Attribut per Zufall auswählt.) Die Freunde dürfen also nicht immer, wenn sie wollen, fragen, ob Brad Pitt in dem Film mitspielt. Und damit sind die Freunde ein “random forest”-Entscheidungsmodell 🙂

So, Ende dieses weitschweifigen Exkurses…

 

Es gibt zwar noch ein paar Probleme, aber die RFM-Methode funktioniert schon ganz gut und methylierungsbasierte Altersvorhersagen mit einer Genauigkeit von +/- 5 Jahre sind durchaus drin.

Auch cool war ein Vortrag, dessen Fazit zwar war: „klappt nicht“, dessen zu Grunde liegende Idee ich aber sehr interessant fand. Es ging um die Unterscheidung forensisch relevanter Fliegenarten (Brachycera), die, je nach Entwicklungsstadium, morphologisch nur von extrem erfahrenen Entomologen halbwegs zuverlässig durchgeführt werden kann. Statt sich also die Maden unter der Lupe zu betrachten, war die Idee, das unterschiedliche Schmelzverhalten der DNA der verschiedenen Spezies zu untersuchen. Abhängig vom GC-Basengehalt schmilzt (denaturiert) ein DNA-Doppelstrang bei höherer oder niedrigerer Temperatur, so daß sich unterschiede bei der DNA-Basenzusammensetzung, die, so die Hypothese, auf verschiedene Arten schließen lassen, mittels der hochauflösenden Schmelzkurvenanalyse (HRM) detektieren lassen. Dazu hatte die Gruppe zig Exemplare von 33 verschiedenen Fliegenarten aus 7 relevanten Familien gesammelt, geschreddert und ihre DNA extrahiert. Daraus haben sie bestimmte Bereiche mittels PCR vervielfältigt und deren Schmelzverhalten mittels HRM untersucht und leider feststellen müssen, daß die Unterschiede zwischen Individuen derselben Art manchmal größer waren, als zwischen Individuen verschiedener Arten, so daß sie zum Fazit kamen, daß man diese Methode in der forensischen Entomologie nicht nutzen kann. An dieser Stelle kann man noch mal betonen, daß auch negative Ergebnisse gut und wichtig sind und es gibt inzwischen sogar ein Journal für negative Ergebnisse (#publication bias).

flattr this!

1 / 2 / 3

Kommentare (3)

  1. #1 radix100
    27/02/2016

    Es gibt zwar noch ein paar Probleme, aber die RFM-Methode funktioniert schon ganz gut und methylierungsbasierte Altersvorhersagen mit einer Genauigkeit von +/- 5 Jahre sind durchaus drin

    radix fagt, wann muss ich danach wohl in die Urne? Zu gern würde ich mich entsprechen einrichten, damit die Erben realistisch planen könne.
    Habe Text mit grooßem Interesse alles gelesen.

  2. #2 zimtspinne
    27/02/2016

    Ich habe auch mal sicherheitshalber alles zweimal gelesen.

    Cube, Planet der Affen, Gattaca, Schweigen der Lämmer, Name der Rose, Fear and Loathing in Las Vegas wären da so meine Allzeit-Lieblingsfilme, weil ich das Gefühl hatte, man sollte hier seine Lieblingsfilme nennen, um zu zeigen, dass das nicht so einfach durchschaubar ist, warum und weshalb.

    Zur Altersbestimmung per Methylierung habe ich ein Fragezeichen im Kopf.

    Was ich mir jetzt als Schwierigkeit vorstelle…. wenn der Tote, der zu identifizieren ist, nun beispielsweise irgendwann in seinem Leben einmal ein Trauma hatte oder eine Krebserkrankung durchmachte oder Hochleistungssportler war, dann wärs doch möglich, die Methylierung ist “explodiert”, also anders verlaufen als normalerweise bei keinen besonderen Vorkommnissen. Krebserkrankung mit vollem Behandlungsprogramm lässt Menschen offenbar schneller altern, sie fühlen sich, als ob sie 10 Jahre gealtert wären und das müsste sich doch auch aufs Epigenom auswirken und damit die korrekte Altersbestimmung erschweren.

    Dann kommt beim DNA-stick oder Genomchip noch folgendes Problem hinzu: Es ist nur eine Momentaufnahme. Lebensgewohnheiten, Krankheiten, Stress, Krisen, Traumata, alles hinterlässt Spuren und schreibt das Epigenom wieder um. Der USB stick müsste ständig aktualisiert werden.

    Wären die Menschen damit einverstanden?
    Eines Morgens schrillt dann der quietschend rote Alarmknopf los und teilt freundlich-streng mit: Achtung, Sie haben seit heute eine verdächtige Raumforderung in der Lunge, alla hopp die Zigarette aus und ab ins Labor zur Tumorsequenzierung!

    Natürlich kennt man dann auch alle seine Gendefekte und muss natürlich auch bei der Partnerwahl den stick abgleichen…. oder ins Institut, um die Kompatibilität prüfen zu lassen? Das wird kompliziert.

    Ich finde es ja jetzt schon krass, dass man sich mit Chorea Huntington ausrechnen könnte, wann man stirbt und frag mich, wieviele das in Anspruch nehmen (würden).

    Gleichzeitig find ich es auch total spannend und faszinierend, aber ich glaube, die meisten Menschen kriegen einen Herzkasper, wenn sie damit konfrontiert werden. Werden? ohje.

    Berichte nach dem Ereignis aber bitte genau, was uns dann demnächst alles blüht! 😉

  3. #3 Fex
    12/03/2016

    Das Random Forest Modell hat, neben der Robustheit, auch noch (mindestend) einen zusätzlichen Vorteil gegenüber vielen anderen maschinellen Lernverfahren:
    Das Modell ist gut interpretierbar.
    Man kann sich ansehen, welche Features des Trainingsdatensatzes oft für Entscheidungen in den Entscheidungsbäumen genutzt wurden. Dies kann ein Hinweis auf wichtige Variablen für das zugrundeliegende Problem geben.

    Dafür ist ein ‘Variable Importance Plot’ sehr gut, der dies grafisch darstellt. Man könnte damit Hinweise bekommen, welche Methylierungen sehr gut auf das Alter hindeuten können und daraus eventuell neue Fragestellungen ableiten.