Fred ist aber nur ein Mensch und kann Eure Vorlieben nicht immer gut generalisieren (er neigt zur Überanpassung) und deshalb holt Ihr noch drei Freunde, Hanni, Nanni und Kai, dazu und statt nur Fred zu vertrauen, stützt Ihr Eure Entscheidung für oder gegen X auf die Aussage aller vier. Jetzt habt Ihr schon einen Entscheidungswald (forest).
Wenn aber alle Freunde gleich trainiert sind, machen sie alle dasselbe (und Ihr seid Euch ja Eurer Vorlieben selbst nicht so sicher), deshalb bekommen sie alle ein leicht unterschiedliches Training. Vielleicht habt Ihr Fred gesagt, daß Ihr Fight Club super fandet, wart aber an diesem Tag einfach nur schräg drauf, so daß vielleicht nicht alle Freunde die Information, daß Ihr Fight Club mögt, nutzen sollten. Oder Ihr habt Fred erzählt, daß ihr Herr der Ringe wirklich außerordentlich gut fandet, so daß auch die anderen Freunde Herr der Ringe stärker gewichten sollten. Also statt allen Freunden die gleiche Information zu geben, bekommen sie alle leicht abgeänderte Informationen, ohne daß Ihr grundsätzliche mag ich/mag ich nicht-Entscheidungen antastet, Ihr sagt nur manchmal dazu, daß ihr diesen oder jenen Film mehr oder weniger mögt oder nicht mögt. (Die Freunde haben jetzt also “ge-bootstrapped-te” Versionen der Original-Trainingsdaten erhalten.)
Indem Ihr diesen Freunde-Wald nutzt, hofft Ihr, daß, während jeder einzelne Freund Euch leicht idiosynkratische Empfehlungen gibt (Fred denkt, Ihr mögt Prügelfilme mehr als Ihr es wirklich tut, Hanni meint, Ihr mögt besonders Marvel-Comicverfilmungen und Kai glaubt, Ihr findet einfach alles Mist), sich die Fehler, die sie machen, im Durchschnitt rausmitteln. (Sie sind jetzt ein “bagged forest” Eurer Filmvorlieben).
Es gibt aber immer noch ein Problem mit den Daten: Obwohl Ihr Fight Club und 12 Monkeys mochtet, war das nicht, weil Ihr Filme mögt, in denen Brat Pitt mitspielt, sondern vielleicht aus anderen Gründen. Ihr wollt also nicht, daß die Freunde Ihre Entscheidung davon abhängig machen, ob Pitt in einem Film mitspielt. Wenn also ein Freund eine Frage an die IMDB stellt, darf er nur auf eine zufällige Auswahl der möglichen Fragen zurückgreifen. (Beim Aufbau des Entscheidungsbaums wird an jedem Knotenpunkt etwas Zufälligkeit bei der Auswahl des Attributs, das die Abzweigung bestimmt, zugelassen, z.B. indem man das Attribut per Zufall auswählt.) Die Freunde dürfen also nicht immer, wenn sie wollen, fragen, ob Brad Pitt in dem Film mitspielt. Und damit sind die Freunde ein “random forest”-Entscheidungsmodell 🙂
So, Ende dieses weitschweifigen Exkurses…
Es gibt zwar noch ein paar Probleme, aber die RFM-Methode funktioniert schon ganz gut und methylierungsbasierte Altersvorhersagen mit einer Genauigkeit von +/- 5 Jahre sind durchaus drin.
Auch cool war ein Vortrag, dessen Fazit zwar war: „klappt nicht“, dessen zu Grunde liegende Idee ich aber sehr interessant fand. Es ging um die Unterscheidung forensisch relevanter Fliegenarten (Brachycera), die, je nach Entwicklungsstadium, morphologisch nur von extrem erfahrenen Entomologen halbwegs zuverlässig durchgeführt werden kann. Statt sich also die Maden unter der Lupe zu betrachten, war die Idee, das unterschiedliche Schmelzverhalten der DNA der verschiedenen Spezies zu untersuchen. Abhängig vom GC-Basengehalt schmilzt (denaturiert) ein DNA-Doppelstrang bei höherer oder niedrigerer Temperatur, so daß sich unterschiede bei der DNA-Basenzusammensetzung, die, so die Hypothese, auf verschiedene Arten schließen lassen, mittels der hochauflösenden Schmelzkurvenanalyse (HRM) detektieren lassen. Dazu hatte die Gruppe zig Exemplare von 33 verschiedenen Fliegenarten aus 7 relevanten Familien gesammelt, geschreddert und ihre DNA extrahiert. Daraus haben sie bestimmte Bereiche mittels PCR vervielfältigt und deren Schmelzverhalten mittels HRM untersucht und leider feststellen müssen, daß die Unterschiede zwischen Individuen derselben Art manchmal größer waren, als zwischen Individuen verschiedener Arten, so daß sie zum Fazit kamen, daß man diese Methode in der forensischen Entomologie nicht nutzen kann. An dieser Stelle kann man noch mal betonen, daß auch negative Ergebnisse gut und wichtig sind und es gibt inzwischen sogar ein Journal für negative Ergebnisse (#publication bias).
Kommentare (3)