Die eiserne Regel in der Statistik (und eigentlich jeglicher experimenteller Wissenschaft): Erst planen, dann erheben, dann auswerten. Alles Andere führt zu einer langen Kette von Problemen, die man Studierenden von Naturwissenschaften seit langer Zeit in Grundpraktika vermittelt. Diese Überlegung steht auch hinter der Einrichtung statistischer “Stabs”-Institute an Universitätskliniken gibt (die auch eigene Forschung machen!), denn man hat auf die harte Weise gelernt, dass gute Statistik wichtig ist. Und in vielen Institutionen gilt vor Design von Studie oder Experiment: “Erst mit den KollegInnen aus der Statistik sprechen!” — Nein, dieser Artikel geht nicht über eine bestimmte Software. Er hält sich auch nicht an die 5 Ws, die angeblich eine gute Geschichte ausmachen (Wer?, Wann?, Wo?, Was?, Warum/Wozu/Wofür?). Es geht um ein Phänomen in Umgang mit Software, gewürzt mit ein wenig Zetern über Künstliche Intelligenz (KI).
Vor langer, langer Zeit lebte ich in einer WG mit einem Medizinstudenten (mit dem ich immer noch befreundet bin). Irgendwann fing er an eine experimentelle Arbeit zu machen, zum Einfluss eines Medikamentes auf die Blutgerinnung. Allein das zeichnete ihn aus, haben doch nicht wenige seiner KommilitonInnen das Labor gescheut, wie der Teufel das Weihwasser. Als es dann um die statistische Auswertung ging, hat er sich tapfer hinter sein Statistikprogramm gesetzt und war tagelang kaum zu sprechen. Schließlich bat er mich seine Rechnungen nachzuvollziehen – was total gut und wissenschaftlich richtig ist: Vier Augen sehen mehr als zwei! Also ging ich ans Werk und nach einer ziemlichen langen Weile (damals noch mit Bleistift, Papier und Taschenrechner durchgekämpft), haben wir — sauber arbeitende Wissenschaftler, die wir waren — unsere Ergebnisse verglichen. Es stellte sich heraus, dass ich einen anderen statistischen Test verwendet hatte als er, mein p-Wert war nur ein kleines Bisschen schlechter als seiner. Warum hatte er den anderen Test verwendet? “Weil der p-Wert, der rauskommt der bessere ist! Also nehme ich mein Ergebnis …”
An die Begründung kann ich mich erinnern als wäre es gestern gewesen … Mein Vertrauen in die medizinische Forschung bekam ihren ersten Knacks.
In den letzten Tagen habe ich einen Artikel gelesen (und ich verrate in diesem Fall nicht welchen, denn ich will keinen Streit). Dort wurde u. a. supervised machine learning angewendet. Ganz einfach erklärt mit einer Anleihe im Märchen (irgendwann möchte ich mal mehr und sauberer über maschinelles Lernen bzw. KI schreiben, aber hier und heute halte ich die Hürde ganz klein, denn es geht mir um einen anderen Punkt, der wenig mit den Algorithmen der KI zu tun hat): Man gibt einer Lernroutine im Computer ein paar Erbsen, gute und schlechte, die man bereits vorsortiert hat. Daraufhin lernt die Routine, also gewissermaßen die Computer-Tauben gute und schlechte Erbsen zu unterscheiden. Das nutzt man um einen riesigen Sack Erbsen zu Sortieren in Töpfchen oder Kröpfchen. Hinterher kann man dann noch schauen, wie gut die Vorhersage war, in dem man die Erbsen, die man zum Lernen verwendet hat mit in den Zum-Sortieren-Sack mischt – und abschließend vergleicht, ob diese Erbsen korrekt sortiert wurden. Man kann dann eine sogenannte ROC-Kurve (reciever operating characteristic) erhalten, die zeigt, wie gut die Vorhersagekraft ist. Jetzt, was gemacht wurde, in den Worten der Veröffentlichung:
In parallel, these sets of each [gelöscht: Input] were subjected to supervised machine learning to gain insight into the [gelöscht: Eigenschaft] of the [gelöscht: Input] (ROC probability of being class “1” yielded from the prediction models). Eleven different algorithms available in the [gelöscht: Name für KI-Desktop-Programm] software were tested for building the prediction models. The neural network algorithm was the best for the [gelöscht: physischer Zweitinput Nr. 1] and [gelöscht: physischer Zweitinput Nr. 2], while naïve bayes was superior for [gelöscht: physischer Zweitinput Nr. 3]. Figure [gelöscht: Nummer] displays n out of m tested algorithms for illustration. With these prediction models, the test [gelöscht: Teil-Input] were calculated, and excellent ROC probabilities were obtained …
Nun ist nicht ungewöhnlich bei Klassifikationsproblemen zu testen welcher Algorithmus in einem bestimmten Fall am Besten funktioniert. Aber weder öffnet das der Willkür die Tür noch sollte man dann, wenn man Vergleichbarkeit zwischen Teilergebnissen bewahren möchte einfach den Algorithmus wechseln. Was ich jedoch noch bedenklicher finde und was offenbar immer häufiger vorkommt, jetzt wo künstliche Intelligenz wieder “in” ist:
- Wer das Problem nicht mathematisch-analytisch beschreiben kann, greift auf KI zurück. (Wobei mir ehrlicherweise beim Auslöser meines Bashings auch nicht klar ist, wie man das analytisch beschreiben kann – die Beschreibung der Parameter fehlt an dieser Stelle in der Veröffentlichung.)
- Weil KI für viele eine Black Box ist, wird solange geklickt / gescripted, bis eine schöne Kurve / eine schöne Zahl / eine schöne Graphik erscheint.
Oft ist mir als Leser dann nicht klar, was eigentlich das Ergebnis ist. Das ist das Problem der Black-Box, denn grundsätzlich kann niemand beschreiben warum die KI welche Entscheidung getroffen hat. Und wenn dann noch der Zusammenhang zwischen dem KI-Ergebnis und dem wissenschaftlich interessanten “Warum?” fehlt, ist der wissenschaftliche Mehrwert gering. Gerade in der Entwicklung medizinischen Diagnostik finde ich das besonders heikel, denn manchmal gibt es, wo KI gewählt wird, bewährte statistische Methoden, deren Ergebnis besser zu interpretieren wäre. Aber ich schweife ab ….
Das Problem der mangelnden Nachvollziehbarkeit haben auch andere schon beschrieben, es erfährt in meinen Augen eine besondere Würze, wenn – wie im vorliegenden Fall – ein Desktop-Programm verwendet wurde. Motto: “Klicken bis die Kurve stimmt!” Deshalb würde ich mich freuen, wenn ähnlich zur angewandten Statistik an Universitätskliniken auch beim Einsatz von KI Regeln eingeführt werden. Zum Beispiel:
- vor dem Einsatz von KI / dem Anwenden von KI auf Daten bitte Beratung suchen, bei Leuten, die sich auskennen
- keine Desktop-Programme verwenden (auch wenn die graphische Benutzeroberfläche verführend ist), die nicht protokollieren, was man eigentlich gemacht hat (was war der Input, welches der verwendete Algorithmus, ggf. welches die Parameterisierung?)
- beim Einsatz von Skripten gilt es ebenfalls zu protokollieren, was eigentlich durchgeführt wurde – am Besten mit zusätzlicher Publikation der Skripte, also des Quellcodes
- eine Pflicht zur Veröffentlichung dessen was genau gemacht wurde (also der Protokolldaten)
Der letzte Punkt ist eine Forderung an die wissenschaftlichen Zeitschriften, denn ohne eine genaue Beschreibung ist die Nachvollziehbarkeit schon auf der menschlichen Ebene nicht zu gewährleisten. Und damit haben wir die “Pandorabüchse KI” (also das Nicht-Nachvollziehen-Können von KI-Entscheidungen) an sich noch gar nicht aufgemacht!
Ich fürchte Passagen wie die oben zitierte werden den review-Prozess immer wieder mal ungehindert durchlaufen (weil die Anwendung von KI eben eher selten wirklichen KI-ExpertInnen zur Begutachtung vorgelegt wird, genauso wie auch die “ordinäre” Statistik bei Weitem nicht in allen Fällen StatistikerInnen zur Durchsicht gegeben wird – Beispiele finden sich überall dort, wo das eigentliche Fach ein Anderes ist und dementsprechend ExpertInnen zum spezifischen Fach zum Review kommen, die eben auch ein Wenig von Statistik bzw. KI verstehen – oder zu verstehen glauben). Die ganze Melange der KI in der bio-medizinischen Forschung droht zu einen neuen Beitrag zur Reproduzierbarkeitskrise zu werden.
Kommentare (16)