Die eiserne Regel in der Statistik (und eigentlich jeglicher experimenteller Wissenschaft): Erst planen, dann erheben, dann auswerten. Alles Andere führt zu einer langen Kette von Problemen, die man Studierenden von Naturwissenschaften seit langer Zeit in Grundpraktika vermittelt. Diese Überlegung steht auch hinter der Einrichtung statistischer “Stabs”-Institute an Universitätskliniken gibt (die auch eigene Forschung machen!), denn man hat auf die harte Weise gelernt, dass gute Statistik wichtig ist. Und in vielen Institutionen gilt vor Design von Studie oder Experiment: “Erst mit den KollegInnen aus der Statistik sprechen!” — Nein, dieser Artikel geht nicht über eine bestimmte Software. Er hält sich auch nicht an die 5 Ws, die angeblich eine gute Geschichte ausmachen (Wer?, Wann?, Wo?, Was?, Warum/Wozu/Wofür?). Es geht um ein Phänomen in Umgang mit Software, gewürzt mit ein wenig Zetern über Künstliche Intelligenz (KI).

Vor langer, langer Zeit lebte ich in einer WG mit einem Medizinstudenten (mit dem ich immer noch befreundet bin). Irgendwann fing er an eine experimentelle Arbeit zu machen, zum Einfluss eines Medikamentes auf die Blutgerinnung. Allein das zeichnete ihn aus, haben doch nicht wenige seiner KommilitonInnen das Labor gescheut, wie der Teufel das Weihwasser. Als es dann um die statistische Auswertung ging, hat er sich tapfer hinter sein Statistikprogramm gesetzt und war tagelang kaum zu sprechen. Schließlich bat er mich seine Rechnungen nachzuvollziehen – was total gut und wissenschaftlich richtig ist: Vier Augen sehen mehr als zwei! Also ging ich ans Werk und nach einer ziemlichen langen Weile (damals noch mit Bleistift, Papier und Taschenrechner durchgekämpft), haben wir — sauber arbeitende Wissenschaftler, die wir waren —  unsere Ergebnisse verglichen. Es stellte sich heraus, dass ich einen anderen statistischen Test verwendet hatte als er, mein p-Wert war nur ein kleines Bisschen schlechter als seiner. Warum hatte er den anderen Test verwendet? “Weil der p-Wert, der rauskommt der bessere ist! Also nehme ich mein Ergebnis …”

An die Begründung kann ich mich erinnern als wäre es gestern gewesen … Mein Vertrauen in die medizinische Forschung bekam ihren ersten Knacks.

In den letzten Tagen habe ich einen Artikel gelesen (und ich verrate in diesem Fall nicht welchen, denn ich will keinen Streit). Dort wurde u. a. supervised machine learning angewendet. Ganz einfach erklärt mit einer Anleihe im Märchen (irgendwann möchte ich mal mehr und sauberer über maschinelles Lernen bzw. KI schreiben, aber hier und heute halte ich die Hürde ganz klein, denn es geht mir um einen anderen Punkt, der wenig mit den Algorithmen der KI zu tun hat): Man gibt einer Lernroutine im Computer ein paar Erbsen, gute und schlechte, die man bereits vorsortiert hat. Daraufhin lernt die Routine, also gewissermaßen die Computer-Tauben gute und schlechte Erbsen zu unterscheiden. Das nutzt man um einen riesigen Sack Erbsen zu Sortieren in Töpfchen oder Kröpfchen. Hinterher kann man dann noch schauen, wie gut die Vorhersage war, in dem man die Erbsen, die man zum Lernen verwendet hat mit in den Zum-Sortieren-Sack mischt – und abschließend vergleicht, ob diese Erbsen korrekt sortiert wurden. Man kann dann eine sogenannte ROC-Kurve (reciever operating characteristic) erhalten, die zeigt, wie gut die Vorhersagekraft ist. Jetzt, was gemacht wurde, in den Worten der Veröffentlichung:

In parallel, these sets of each [gelöscht: Input] were subjected to supervised machine learning to gain insight into the [gelöscht: Eigenschaft] of the [gelöscht: Input] (ROC probability of being class “1” yielded from the prediction models). Eleven different algorithms available in the [gelöscht: Name für KI-Desktop-Programm] software were tested for building the prediction models. The neural network algorithm was the best for the [gelöscht: physischer Zweitinput Nr. 1] and [gelöscht: physischer Zweitinput Nr. 2], while naïve bayes was superior for [gelöscht: physischer Zweitinput Nr. 3]. Figure [gelöscht: Nummer] displays n out of m tested algorithms for illustration. With these prediction models, the test [gelöscht: Teil-Input] were calculated, and excellent ROC probabilities were obtained …

Nun ist nicht ungewöhnlich bei Klassifikationsproblemen zu testen welcher Algorithmus in einem bestimmten Fall am Besten funktioniert. Aber weder öffnet das der Willkür die Tür noch sollte man dann, wenn man Vergleichbarkeit zwischen Teilergebnissen bewahren möchte einfach den Algorithmus wechseln. Was ich jedoch noch bedenklicher finde und was offenbar immer häufiger vorkommt, jetzt wo künstliche Intelligenz wieder “in” ist:

  • Wer das Problem nicht mathematisch-analytisch beschreiben kann, greift auf KI zurück. (Wobei mir ehrlicherweise beim Auslöser meines Bashings auch nicht klar ist, wie man das analytisch beschreiben kann – die Beschreibung der Parameter fehlt an dieser Stelle in der Veröffentlichung.)
  • Weil KI für viele eine Black Box ist, wird solange geklickt / gescripted, bis eine schöne Kurve / eine schöne Zahl / eine schöne Graphik erscheint.

Oft ist mir als Leser dann nicht klar, was eigentlich das Ergebnis ist. Das ist das Problem der Black-Box, denn grundsätzlich kann niemand beschreiben warum die KI welche Entscheidung getroffen hat. Und wenn dann noch der Zusammenhang zwischen dem KI-Ergebnis und dem wissenschaftlich interessanten “Warum?” fehlt, ist der wissenschaftliche Mehrwert gering. Gerade in der Entwicklung medizinischen Diagnostik finde ich das besonders heikel, denn manchmal gibt es, wo KI gewählt wird, bewährte statistische Methoden, deren Ergebnis besser zu interpretieren wäre. Aber ich schweife ab ….

Das Problem der mangelnden Nachvollziehbarkeit haben auch andere schon beschrieben, es erfährt in meinen Augen eine besondere Würze, wenn – wie im vorliegenden Fall – ein Desktop-Programm verwendet wurde. Motto: “Klicken bis die Kurve stimmt!” Deshalb würde ich mich freuen, wenn ähnlich zur angewandten Statistik an Universitätskliniken auch beim Einsatz von KI Regeln eingeführt werden. Zum Beispiel:

  • vor dem Einsatz von KI / dem Anwenden von KI auf Daten bitte Beratung suchen, bei Leuten, die sich auskennen
  • keine Desktop-Programme verwenden (auch wenn die graphische Benutzeroberfläche verführend ist), die nicht protokollieren, was man eigentlich gemacht hat (was war der Input, welches der  verwendete Algorithmus, ggf. welches die Parameterisierung?)
  • beim Einsatz von Skripten gilt es ebenfalls zu protokollieren, was eigentlich durchgeführt wurde – am Besten mit zusätzlicher Publikation der Skripte, also des Quellcodes
  • eine Pflicht zur Veröffentlichung dessen was genau gemacht wurde (also der Protokolldaten)

Der letzte Punkt ist eine Forderung an die wissenschaftlichen Zeitschriften, denn ohne eine genaue Beschreibung ist die Nachvollziehbarkeit schon auf der menschlichen Ebene nicht zu gewährleisten. Und damit haben wir die “Pandorabüchse KI” (also das Nicht-Nachvollziehen-Können von KI-Entscheidungen) an sich noch gar nicht aufgemacht!

Ich fürchte Passagen wie die oben zitierte werden den review-Prozess immer wieder mal ungehindert durchlaufen (weil die Anwendung von KI eben eher selten wirklichen KI-ExpertInnen zur Begutachtung vorgelegt wird, genauso wie auch die “ordinäre” Statistik bei Weitem nicht in allen Fällen StatistikerInnen zur Durchsicht gegeben wird – Beispiele finden sich überall dort, wo das eigentliche Fach ein Anderes ist und dementsprechend ExpertInnen zum spezifischen Fach zum Review kommen, die eben auch ein Wenig von Statistik bzw. KI verstehen – oder zu verstehen glauben). Die ganze Melange der KI in der bio-medizinischen Forschung droht zu einen neuen Beitrag zur Reproduzierbarkeitskrise zu werden.

flattr this!

Kommentare (16)

  1. #1 Karl Mistelberger
    mistelberger.net
    23. Juni 2020

    Das Gute an dieser Geschichte ist, dass solche Veröffentlichungen zwar geschrieben, aber zumindest von erfahrenen Leuten erst gar nicht gelesen werden.

    Dialog im 3. Physikalischen Institut der Universität Ende der Siebziger Jahre;

    A: N.N. hat wieder was veröffentlicht.

    B: Steht da auch was drin?

    A: Ich hab’ nix g’sehn.

    • #2 Christian Meesters
      23. Juni 2020

      Mag sein, nicht wenige ungelesene Veröffentlichungen werden aber als faktisch korrekt zitiert und dienen der eigenen Vermutung als Beleg …

  2. #3 Karl Mistelberger
    mistelberger.net
    23. Juni 2020

    Mit “faktisch” ist wohl eher “formal” korrekt gemeint. Tatsächlich ist die Situation oft komplexer als die meisten denken. Nur redet keiner gern darüber. Früher war man da direkter. Freeman Dyson zitiert Enrico Fermi:

    And he said, ‘You know, Johnny von Neumann always used to say, “With four parameters I can fit an elephant, and with five I can make him wiggle his trunk.”

    • #4 Christian Meesters
      23. Juni 2020

      Mit “faktisch” ist wohl eher “formal” korrekt gemeint.

      Nein ist es nicht.

  3. #5 Kai
    23. Juni 2020

    @Karl: Dazu gab es auch neulich ein paper: Wie zeichnet man einen Elefant mit 4 Parametern?

    https://doi.org/10.1119/1.3254017

  4. #6 Karl Mistelberger
    mistelberger.net
    24. Juni 2020

    > #4 Christian Meesters, 23. Juni 2020
    >> Mit “faktisch” ist wohl eher “formal” korrekt gemeint.
    > Nein ist es nicht.

    Na ja. Der Zitierende weiß wohl, dass er Käse zitiert. Er hat aber keine brauchbare Alternative und tut was alternativlos ist.

    • #7 Christian Meesters
      24. Juni 2020

      Nein, es ist ihr/ihm gleichgültig. Es gibt Bespiele für viel zitierte Paper, vor dem Zeitalter des www, die in Bibliotheken schimmelten, wo zitiert wurde, weil das jeder so machte. Tempora non mutantur

  5. #8 Karl Mistelberger
    mistelberger.net
    24. Juni 2020

    Apropos Paper:


    Parachute use to prevent death and major trauma related to gravitational challenge: systematic review of randomised controlled trials

    As with many interventions intended to prevent ill health, the effectiveness of parachutes has not been subjected to rigorous evaluation by using randomised controlled trials. Advocates of evidence based medicine have criticised the adoption of interventions evaluated by using only observational data. We think that everyone might benefit if the most radical protagonists of evidence based medicine organised and participated in a double blind, randomised, placebo controlled, crossover trial of the parachute.

    • #9 Christian Meesters
      24. Juni 2020

      Wie schon Robbert Dijkgraaf schrieb (über das populärwissenschaftliche Schreiben):

      Je moet soms wel een nuance weglaten. Maar dan wijst altijd een gepensioneerde ingenieur je erop dat er nog een extra cijfer achter de komma zit.

      bzw.

      Man muss einfach ab und an eine Nuance auslassen. Dann kommt aber stets ein verrenteter Ingenieur der darauf hinweist, dass noch eine Ziffer mehr hinter das Komma gehört.

      SCNR

      Sorry, witzige Paper sind witzige Paper und dürfen gerne als Beleg dafür dienen, dass Wissenschaftler Menschen sind und Humor haben. … Äh, worum ging es noch gleich?

  6. #10 Sebastian Boegel
    24. Juni 2020

    Lieber Christian,

    sehr treffend geschriebener Artikel. Du sprichst ein weiteres großes Problem an: die Veröffentlichung des Quellcodes und aller Daten zur Reproduktion der Ergebnisse. Ist erschreckendwerweise selbst bei rein bioinformatischen Publikationen immer noch nicht Standard
    https://twitter.com/sebboeg/status/1268925257567612931?s=20

  7. #11 Kai
    24. Juni 2020

    Aber mal zum Thema:

    Die p-value Geschichte finde ich gar nicht so schockierend. Wenn ich verschiedene Möglichkeiten habe, einen Sachverhalt im Paper darzustellen, nehme ich die, mit der sich meine Message am besten verkaufen lässt. Ist doch logisch. Macht jeder so. Andersherum weiß jeder das. Wenn ich ein fremdes Paper lese achte ich sehr genau darauf, warum z.B. in einem Plot ausgerechnet jene Art der Darstellung genutzt wird, oder warum ausgerechnet dieser statistische Test angewandt wird. p-Values sind keine Magischen Werte. Wenn ein Paper irgendwo einen p-value hinschreibt, dann sollte jeder Wissenschaftler wissen, dass der für sich genommen nichts aussagt, solange man nicht die zugrundeliegende Nullhypothese kennt. Und wenn jemand irgendwelche absurden p-values von 10^-300 ins Paper schreibt, ist mein erster Gedanke oft auch, dass die Nullhypothese wahrscheinlich vollkommen ungeeignet ist. Oder der p-value ist sinnlos. Denn wenn ein Fakt so offensichtlich ist, dass ein solcher p-value rauskommt, wozu braucht man dann überhaupt noch einen p-value? Hier sind leider auch einige Editoren und Referees Schuld, die zu jedem Plot immer irgendwelche p-values haben wollen, selbst wenn man mit bloßem Auge den Sachverhalt erkennt.

    Bezüglich maschinellen Lernens: Ja, da wird unglaublich viel Schindluder getrieben. Ich bin ja selbst auch Bioinformatiker und arbeite viel in Richtung ML. Was mir besonders aufstößt ist, dass so gut wie nie evaluiert wird. Man schmeißt die Daten in ein neuronales Netz, und präsentiert dann die Ergebnisse als wären sie eine Weltsensation. Ich selbst finde es immer wichtig gegen die naive Methode zu evaluieren, weil man erst so ein Gefühl dafür bekommt, ob ein Problem womöglich völlig trivial ist. Wenn ich einen Algorithmus schreibe, vergleiche ich gegen z.b. einen Greedy-Algorithmus. Wenn ich irgendeine ML Methode benutze, vergleiche ich gegen k-nearest neighbour (der in vielen Publikationen gleichauf mit dem deep neural network ist, würde man denn gegen ihn evaluieren ;)). Saubere cross-validation und independent Daten bekommt auch niemand hin. Reproduzierbar sind die Ergebnisse auch selten (zumal in vielen Papern einfach mal 50% aller Parameter, Algorithmen, verwendete Programme etc. weggelassen werden). Es gibt aber, zum Glück, auch immer mehr Paper die ihren gesamten Source Code auf Github hochladen.

    • #12 Christian Meesters
      24. Juni 2020

      Bzgl. der p-Wert-Geschichte liegt ein Missverständnis vor: Das das Problem ist nicht die Auswahl des hübscheren Wertes, sondern die Auswahl des Tests nach dem erhaltenen Wert. Manchmal hat man in der “ordinären” Statistik die Wahl, aber die Begründung nach dem p-Wert ist unzulässig, da braucht es eine Begründung nach Art der Daten.

      Sonst: Danke für Deinen Beitrag.

  8. #13 Karl Mistelberger
    mistelberger.net
    24. Juni 2020

    > #9 Christian Meesters, 24. Juni 2020
    > Äh, worum ging es noch gleich?

    Unter anderem um einen kleinen Medizinstudenten und seine alternative Realität.

  9. #14 bote
    25. Juni 2020

    Christian Meesters,
    Sie bringen hier ein sehr komplexes Thema zur Sprache, die Auswertung von Statistiken. Die drei Mitkommentatoren beweisen, dass das Thema nicht nur sehr schwierig ist, sondern auch unanschaulich. Ich würde mich freuen, wenn sie ein konkretes Beispiel über den p-Wert bringen würden und was für ein Unterschied besteht, wenn der nach dem einen oder anderen Algorithmus berechnet wird.
    Oder sollte das hier nur ein Fachsimbeln auf hohem Niveau werden. Sollte keine Kritik sein, dafür stehe ich noch im Nebel.

    • #15 Christian Meesters
      25. Juni 2020

      Die drei Mitkommentatoren beweisen, dass das Thema nicht nur sehr schwierig ist, sondern auch unanschaulich.

      Ein Kommentator beweist, dass sein Amüsement wichtiger ist als das Thema. Ein Kommentator greift einen anderen Aspekt auf und einer schreibt zum Thema.

      Doch danke, das ist ein interessanter Vorschlag. Ich habe einige Themen in der Pipeline (und einen Job zu tun), werde das aber auf die Ideenliste stecken.

      Wobei vorweg soviel: Ein statistischer Test ist etwas Anderes als ein Sortier-Problem. Wenn die KI schlecht trainiert ist, ist die Zuordnung schlecht. Hinzu kommt das Problem des sample bias bzw. die Stichprobenselektion: Wird die KI mit einer nicht-repräsentativen Auswahl an Proben trainiert, kann man ebenfalls auf die Idee kommen, dass die Selektion des falschen Algorithmus scheinbar gut ist. Was genau im beschriebenen Fall geschehen ist, bleibt unklar, weil nicht beschrieben – womöglich haben die Autoren diesbzgl. alles korrekt gemacht. Klar ist aber, dass das Sortieren von ein und derselben Stichprobe auf Basis versch. Trainings und versch. Algorithmen die Vergleichbarkeit zwischen den versch. Problemen zerstört und das Rumklicken bis die ROC-Kurve “schön” ist ohne Angabe irgendwelcher Parameter die Nachvollziebarkeit endgültig zerstört hat. DIES alles ist der Punkt. p-Werte hätte man hier durch den Vergleich der ROC-Kurven gewinnen können (mit der Frage: Sind die Kurven wirklich unterschiedlich?) – sie spielen im angesprochenen Paper keine Rolle. Dazu hätte man aber ein Konfidenzintervall berechnen müssen, was die Autoren auch nicht gemacht haben (bzw. worüber sie nichts geschrieben haben). “p-Hacking war gestern” darf man so getrost übersetzten: Gestern wurden nur p-Werte geschönt, heute kommt das Polieren mit KI hinzu. Motto: “Die ist so kompliziert, das geht sicher durch den Review!” Da ist das Auswählen eines statistischen Tests um den p-Wert KI-frei zu Schönen nachgeradezu fortgeschritten – denn das geht immer doch Reviews, aber immer schlechter.

  10. #16 Karl Mistelberger
    mistelberger.net
    27. Juni 2020

    Wie man den p-Wert deutet

    Der p-Wert gibt an, ob ein gemessenes Resultat auch durch Zufall erklärt werden kann. Die eigentlich interessante Frage beantwortet er dagegen nicht: Was sagt das über die Korrektheit der Hypothese aus?

    Diese hängt nicht nur von den Ergebnissen ab, sondern auch davon, wie plausibel die Hypothese vor dem Experiment war.

    https://www.spektrum.de/news/statistik-wenn-forscher-durch-den-signifikanztest-fallen/1224727