Verbreitung von Unsinn? Eine Kritik der Kritik

Von Ulrich Berger / 31. Oktober 2014 / 21 Kommentare

Der vor ein paar Tagen hier veröffentlichte Gastbeitrag von Christoph Baumgarten ist eine herbe Kritik an einer jüngst via Pressemeldung vorgestellten psychologischen Studie und an der Art und Weise, wie die Resultate dieser Studie durch einen Artikel im Standard weiter verbreitet wurden. Kurz gefasst: Christoph hält die Studie über einen Zusammenhang zwischen Geburtszeitpunkt und Temperament für pseudowissenschaftlich und meint, ein Wissenschaftsjournalist sollte das auch nach kurzer Recherche erkennen können.

Diese Kritik stieß jedoch nicht auf ungeteilte Zustimmung. Dem Gastbeitrag voraus gegangen war eine Diskussion auf der Mailingliste der GkD, die sich auch danach noch fortsetzte. Einige konnten die Kritik nicht nachvollziehen. Ich persönlich z.B. halte Christophs Kritik am Standard-Artikel für überzogen. Die Studie wurde bisher nur auf einer Konferenz vorgestellt und ist noch nicht in einer Zeitschrift mit peer-review Verfahren publiziert worden. Öffentlich einsehbar ist daher auch nur die Pressemeldung, die auch das Abstract der Studie enthält. Ob man eine noch nicht einmal publizierten Studie zu einem Zeitungsartikel verarbeiten muss, darüber kann man diskutieren. Wenn man es jedoch tut, sollte man zumindest vorsichtig fomulieren. Das aber ist im Standard-Artikel meines Erachtens ausreichend der Fall. Schon der Titel der Meldung enthält das relativierende Wörtchen “könnte”. Im Untertitel ist von “möglichen” Zusammenhängen die Rede. Und er grenzt sich auch schon in der Einleitung von “astrologischem Hokuspokus” ab.

Zur Qualität der Studie selbst kann ich wenig sagen. Erstens liegt wie erwähnt nur das Abstract vor, und zweitens ist das nicht mein Fach. Es ist allerdings das Fach von Andreas Hergovich, Psychologe an der Uni Wien. Er hat an der E-Mail-Diskussion teilgenommen und kritisiert wiederum die Kritik von Christoph. Hier ist seine Entgegnung kurz zusammengefasst:

==============================================================

Eine Metakritik von Andreas Hergovich

Es macht ja an sich wenig Sinn, ein Abstract zu kritisieren, weil ein Abstract zu viele Informationen nicht enthält. Es ist auch von vornherein klar, dass nicht aus jedem Abstract ein Fachartikel wird.

Eine schnelle Internetrecherche kombiniert mit inhaltlicher Reserviertheit ist aber auch nicht unbedingt die Grundlage für eine fundierte Analyse. In einigen Punkten ist die Kritik von Christoph Baumgarten nämlich mindestens so schwach wie das von ihm kritisierte Abstract:

“mangelnde Repräsentativität”: Man zeige mir die psychologischen Fachartikel mit repräsentativen Stichproben! In diesem Kontext ist Repräsentativität ist eine reine Laien-Forderung, studentische Zufallsstichproben sind üblich.

“Stichprobe im Mittel 21 Jahre alt”: Auch das ist durchaus üblich. Aus praktischen Gründen kommen meist Bachelor-Studenten zum Handkuss.

“ungeeignetes Messinstrument”: Es ist ebenso üblich, genuin psychiatrische Tests der Normalbevölkerung vorzulegen, wie z.B. das Minnesota Multiphasic Personality Inventory.

“Stichprobe zu klein”: Die Stichprobe ist keineswegs zu klein. Vermutlich ist sogar das Gegenteil der Fall: die Stichprobe ist zu groß, daher werden unbedeutende Effekte statistisch signifikant.

“Messinstrument ist umstritten”: Gibt es dafür gute Belege? Ist es nicht reliabel oder nicht valide?

“nur einmalige Testung”: Es ist vollkommen üblich, die Persönlichkeit bzw. das Temperament einmalig zu testen. Man geht davon aus, dass es sich eher um Traits (stabile Persönlichkeitseigenschaften) als States (momentane Zustände) handelt.

Andreas Hergovich

Kommentare (21)

#1 Joseph Kuhn
31. Oktober 2014

Repräsentativität: In der Tat haben viele psychologische “Universitätsstudien” Studierende als Probanden, aber dass das oft vorkommt, macht die Sache nicht besser. Erst recht nicht, wenn Merkmale als traits verkauft werden, es aber nicht sind, dann sind die Ergebnisse schlicht nicht übertragbar.

Stichprobengröße: Ein kurioses Argument. Machen wir nicht Studien, um Effekte zu sehen, für die das “bloße Auge” nicht ausreicht, z.B. kleine Effekte? Die Frage ist eher, sind es überhaupt Effekte oder ein Hintergrundrauschen, das durch das Signifikanzritual erst mal als Effekt erscheint und bei einer Wiederholungsstudie nicht mehr festzustellen ist?

Ansonsten natürlich Zustimmung, ein Abstract gibt in der Regel nicht genug für eine Studienkritik her.
#2 Michel
31. Oktober 2014

Zumindest Teilnehmer an der besagten Konferenz sollten doch in der Lage sein, diese Studie kritisch zu beurteilen. Ist den keiner hingegangen?
#3 Trottelreiner
31. Oktober 2014

@Joseph Kuhn:
Wobei das ungarische Sample zumindest etwas vom üblichen WEIRD-Objekt abweicht:

https://neuroanthropology.net/2010/07/10/we-agree-its-weird-but-is-it-weird-enough/
#4 CM
1. November 2014

Joseph, hat ja schon was bzgl. Repräsentativität geschrieben. Ich halte das auch für hochproblematisch: Wenn schon auf die Allgemeinbevölkerung Rückschlüsse gezogen werden sollen, so ist die Forderung nach Repräsentativität als “Laien-Forderung” zu bezeichnen ein Indikator für einen Missstand im Fach (falls psychologische Studien wirklich mehrheitlich so aufgebaut sind).

Auch das Argument um die Stichprobengröße finde ich kurios: Klar bei einer “mittelgroßen” Stichprobe (was auch immer das im Einzelfall ist) kann man sich – wenn man Pech hat! – Gedanken bzgl. Stratifikation sparen: Der “P-Wert” ist so schon exorbitant gut. Aber gerade dann gilt: Wenn eine Erhebung sehr unwahrscheinliche Effekte oder sehr unplausible Zusammenhänge zu bestätigen scheint, sollte besondere Vorsicht bei der Interpretation gelten. Im Zweifel sollte eine Replikation der Studie angestrebt werden, bei der etwaige Fehlerquellen der Vorgängerstudie vermieden werden. (DAS ist natürlich Wunschdenken …)
#5 Joseph Kuhn
1. November 2014

@ CM: Dein Argument mit der Stratifikation verstehe ich nicht. Sind zur Kontrolle von Confoundern, Effektmodifikation etc. nicht gerade größere Stichproben notwendig? Kannst Du das noch mal erläutern?

Was mir an der ursprünglichen Studienkritik nicht so gefällt: Sie klingt ein wenig voreingenommen nach “die Geburtsjahreszeit darf keine Folgen haben, weil das astrologische Thesen bestätigen könnte.” Eine solche Haltung sollte die Studienkritik nicht leiten, ganz abgesehen davon, dass Zusammenhänge zwischen Geburtsjahreszeit und irgendwelchen körperlichen oder psychischen Merkmalen ohnehin noch lange nicht für die Astrologie sprechen.
#6 CM
1. November 2014

Joseph, genau das meinte ich – die Ironie kam wohl nicht rüber: So blöde statistische Finessen wie die Berücksichtigung von Störvariablen enfällt halt, wenn man eine “saubere” Stratifikation innerhalb einer größeren Stichprobe durch annähernd willkürliche Probandenselektion bzw. kleine Stichproben ersetzt. (Aber mein Gedanke war/ist zu sehr von hinten durch die Brust ins Auge, um witzig zu sein, sehe ich ein.)

Bzgl. Haltung der Studienkritik: Umgekehrt wird ein Schuh draus. Zumindest, wenn man nicht-bayessche, sondern fishersche Statistik macht: Die Nullhypothese muss halt sehr sauber formuliert werden, mögliche Störvariablen sollte man kennen und berücksichtigen – aber hier wird es schnell philosophisch (, denn ist die Forderung realistisch?). Sonst kann man recht viel für plausibel halten und das passiert ja auch.
#7 Demolog
1. November 2014

Astrologische Thesen sind eben einfach “selbsterfüllend”, wenn/weil die Population daran glaubt. (nicht notwendigerweise die Testpersonen).

Subjekte mit Lebenskrisen finden in astrologischen Thesen und Konstrukten Orientierung. So, wie der Wissenschaftler an seinen Prämissen diese findet. Oder eine Gesellschaft an ihren Traditionen…usw.
Die in den Konstrukten (etwa wie Horoskope) erzeugenden Selbstwirksamkeits- und Selbsterkennungseffekte sind hier psychologisch von hohem wert. Das dies auch eine selektive Wahrnehmung sei, weil die Konstrukte erheblich unscharf und variabel assoziierbar sind (Alltäglichkeit besitzen), ist doch therapeutisch völlig unwichtig.
Die “Wahrheitsfrage” also kontraproduktiv. Also schämt euch, die ihr kritik am vermeindlichen Nonsens übt.
#8 Joseph Kuhn
1. November 2014

@ CM: Stichprobengröße: Und ich dachte schon, ich muss zur Statistiknachhilfe.

Was die Haltung zur Studienkritik angeht: Das sehe ich auch so. Wenn diese Haltung reflektiert ins Spiel kommt, z.B. als Nullhypothese, ist daran nichts auszusetzen. Aber wenn sie “hinterrücks” als Bias in der Wahrnehmung von Ergebnissen bzw. Studiendesignfehlern auftritt, wird es problematisch. Und davon sind wir leider alle nicht frei, wir sehen alle gerne, was wir sehen wollen – und halten es oft nicht einmal für schlimm, weil wir doch wissen, dass wir recht haben. 😉
#9 Reggid
1. November 2014

ich, als komplett ahnungsloser was derartige pyschologischen studien betrifft, würde auch darum bitten die angesprochenen punkte vielleicht noch mal ausführlicher zu erläutern.

denn als außenstehender klingen kritikpunkte wie “nicht repräsentativ” oder “nur einmalige testung für persönlichkeit” usw… natürlich schon erstmals sehr überzeugend, da wäre es schon hilfreich wenn das gegenargument aus mehr als nur “das ist halt so üblich” bestehen würde.

und könnte mir jemand vielleicht erklären was es heißt dass eine stichprobe zu groß ist? ich hätte erwartet dass es nur ein problem sein kann wenn sie zu klein ist?
#10 Trottelreiner
2. November 2014

@demolog:
Nur hat die Untersuchung, ob irgendeine Größe mit dem Geburtsdatum korreliert eben nur SEHR begrenzt etwas mir Astrologie zu tun. Um mal zwei Beispiele zu nehmen, von denen ich eines schon im ursprünglichen Kommentarfred erwähnt hatte:

1.) Kinder, die im Monat vor dem Stichtag der Einschulung geboren werden, werden ca. 1,6-mal häufiger mit ADHD diagnostiziert als Kinder, die im darauffolgenden Monat geboren werden:

https://www.ncbi.nlm.nih.gov/pubmed/20638739

Während ein Astrologe vielleicht damit argumentieren könnte, daß es ein Zappelphillip/Hand-guck-in-die-Luft-Sternzeichen gäbe, ist die wahrscheinlichere Antwort, daß das Schulpersonal Kinder mit dem Rest der Klasse vergleicht und jüngere Kinder entsprechend eher auffallen. Wahlweise kann das bedeuten, daß man jüngere Kinder später einschult oder zurückstuft oder bei den älteren Kindern besonders auf Verhaltensauffälligkeiten achten sollte, auch wenn die Noten in Ordnung sind.

2.) Wie schon erwähnt, tritt Schizophrenie bei einigen Geburtsmonaten gehäuft auf. Da wir immer noch weder genau wissen, wie “Schizophrenie” noch absolut immer wirkende, nebenwirkungsfreie Therapien haben, erscheint es sehr sinnvoll, diesen Zusammenhang zu untersuchen um einerseits mehr über die Entstehung der Schizophrenie zu erfahren und andererseits das Risiko zu minimieren, z.B. durch weiter Impfungen vor der Schwangerschat wie heute schon bei den Röteln.

Inwiefern die kritisierte Untersuchung irgendwelche Anwendungen hätte erscheint fraglich, aber eventuell wäre es schon interessant, warum einige Menschen sich an einem überdimensionierten Gummiband in Schluchten stürzen etc. und andere nicht.
#11 Phil
2. November 2014

1.) Kinder, die im Monat vor dem Stichtag der Einschulung geboren werden, werden ca. 1,6-mal häufiger mit ADHD diagnostiziert als Kinder, die im darauffolgenden Monat geboren werden:

Ich würde wetten, dass der Effekt mitwandert, wenn wir den Stichtag um einen Monat verschieben. Schließlich liegt zwischen den Gruppen ca. 1 Jahr kindliche Entwicklung.
#12 Josef Mattes
3. November 2014

Von möglicherweise eingeschränkter Aussagekraft (Studentensample) zu “Unfug”, “Unsinn”, “Armutszeugnis”, “offensichtlichem Bias” und “pseudowissenschaftlichem Quatsch” (ursprünglicher Baumgartner-Kommentar) ist immer noch ein weiter Weg.

P.S.: ad Samplegröße: man erinnere sich an “die Akte Astrologie” um zu sehen, das bei zu großen Samples mit minimalen aber “signifikanten” Effekten herauskommen kann.
#13 krypto
3. November 2014

“Das ist so üblich” ist ein genauso sinnentleertes Argument wie “Der ist Professor, der muss es also wissen.”
Gelten in der Psychologie andere Qualitätsstandards als bei anderen Wissenschaften?
#14 Orci
3. November 2014

“Das ist so üblich” kann in diesem Zusammenhang auch die Bedeutung von etwa “Es gibt sehr gut erprobte Verfahren, die in unzähligen Anwendungen ihre Richtigkeit gezeigt haben” haben. Wenn wir sagen “Ich glaube daran, dass die Erde eine Bahn um die Sonne zieht” ist das Wörtchen “glaube” ja auch nur die Kurzform für zum Beispiel “Eine große Anzahl unabhängig voneinander arbeitender Menschen in unterschiedlichsten Teilen der Welt und zu verschiedenen Zeiten hat auf verschiedene von einander unabhängige Arten gezeigt, dass…” Sich an der Wortwahl zu stören ist zunächst mal ein semantisches Problem – es kann natürlich aber auch auf ein tatsächliches Problem hinweisen.

Dafür müsste man jetzt genauer wissen, an welchem Prüfstein die Psychologen ihre erkenntnispraktischen Werkezeuge wetzen. Obige Replik sollte zumindest einen erklärenden Satz beinhalten – aber daran mangelt es und deswegen erscheint sie mir als Laien zunächst nicht glaubhafter.
#15 Joseph Kuhn
3. November 2014

@ krypto, @ Orci:

Es gibt theoretische und praktische Gründe für Studentenstichproben in der Psychologie. Geht man z.B. davon aus, so etwas Ähnliches wie “Naturgesetze” der menschlichen Psyche zu untersuchen, ist es egal, ob man Studenten untersucht oder Straßenbahnschaffner. Eigentlich wäre es dann sogar egal, wie viele Probanden man untersucht, wenn diese “Gesetze” ohne Störgrößen, ohne statistisches Rauschen, in Erscheinung treten würden. In vielen Fällen geht es aber gar nicht um psychologische Gesetze, die für alle Menschen gelten, sondern um höchst kontingente Sachverhalte, dann wird unzulässigerweise auf “die Menschen” verallgemeinert. Im Zusammenhang mit den Geburtsjahreszeiten wäre das aber kein echtes Problem: Auch wenn so ein Zusammenhang nur für Studierende gilt, wäre das ja ein interessanter Befund, wie immer das auch zu erklären wäre. Praktische Gründe für Studentenstichprobenliegen liegen u.a. darin, dass sie quasi von alleine anfallen, die Studierenden müssen experimentalpsychologische Nachweise erbringen.

Die Kritik von Andreas Hergovich scheint aus einer E-Mail-Diskussion zusammengefasst zu sein, das erklärt wohl die stichwortartige und missverständnisträchtige Kürze. Vielleicht erläutert er ja den einen oder anderen Punkt selbst noch.
#16 Trottelreiner
5. November 2014

@Phil:
Tut er nach dem von mir verlinkten Artikel ja, je nachdem ob der 1. September oder der 1. Dezember der Stichtag für den Kindergartenbesuch ist. Daneben machen aber beide Verteilungen, insbesondere die Letztere auf mich den Eindruck, daß diese aus einem überandergelegten halbwegs linearen Anstieg und abruptem Abfall einerseits und einer eher an eine Glockenkurve erinnernde Verteilung andererseits zusammengesetzt sind, aber Augapfelstatistik funktioniert ja nicht wirklich. Andererseits gäbe es eben wieder diverse Erklärungen, z.B. jahreszeitlichen Schwankungen des Geburtsgewichts oder ein durch die langen Tage im Sommer bewirktes Schlafdefizit die sich auf die weitere Entwicklung auswirken. Wie schon gesagt, Mechanismen gäbe es viele, ohne gleich der Sterndeuterei zu verfallen. Die IMHO implizierte Nähe von Untersuchungen zum Geburtsdatum zur Astrologie war dann auch das, was mich an dem ursprünglichen Artikel am meisten störte.
#17 Andreas Hergovich
7. November 2014

Ad einmalige Testung: es wird davon ausgegangen, dass es sich bei der Persönlichkeit um eine relativ stabile Eigenschaft handelt. Ist der Test zuverlässig, d.h. ergeben wiederholte Testungen nachweislich nahezu dasselbe Ergebnis, muss nicht wiederholt getestet werden.

Ad zu kleine Stichprobe: das ist eigentlich ziemlich kompliziert. Hier kann nur angedeutet werden, dass ein Unterschied besteht zw. Effektgröße, Teststärke und Signifikanz. Alle 3 Dinge wären zu beachten. Ein signifikanter Test ohne Teststärke (“Aussagekraft” des Tests, genau die Wahrscheinlichkeit, mit der auch die Alternativhypothese bei beobachteten Daten gilt) ist wertlos, ein signifikanter Test bei winzigen Effekten praktisch möglicherweise bedeutungslos. Es liegt in der Natur des statistischen Testens, dass irgendwann jeder Unterschied, sei er auch noch so klein (z.B. der Größenunterschied zw. 2 Menschen von 2mm) statistisch signifikant wird, wenn die Stichprobe nur groß genug ist. Um das zu verhindern, sollte vorher berechnet werden (das kann man), wie groß die Stichprobe sein muss, dass ein Effekt einer bestimmten Größenordnung mit genügend großer Teststärke nachweisbar ist. Die Forderung nach möglichst großer Stichprobe demonstriert nur, dass man nicht die Zusammenhänge zw. Effektgröße, Teststärke und Signifikanz kennt (gut nachlesbar in Bühner und Ziegler, Statistik für Sozialwissenschaftler).

ad studentische Zufallsstichprobe: üblich soll hier meinen: ist guter Standard, bei Zufallsstichproben sollten Störeffekte weggemittelt werden, hat viele Vorteile gegenüber repräsentativen Stichproben (gegenüber diesen kann man ja einwenden, dass sie nicht für Subpopulationen repräsentativ sind). Man mag einwenden, dass die Ergebnisse nicht für die Gesamtbevölkerung zu verallgemeinern sind, wenn man Argumente dafür hat, dass der fragliche untersuchte Zusammenhang für Studenten anders aussehen sollte als z.B. für Angestellte o.ä., was hier wohl nicht der Fall ist.

Fazit: der Kritiker eines Fachbeitrages sollte in seiner Kritik die fachlichen Standards kennen und nicht unterbieten. Insbesondere sollte er Fairness walten lassen und auch Ergebnisse, die nicht seinen Vorerwartungen entsprechen, gelten lassen und nicht versuchen, durch Ad-Hoc-Argumente (vielleicht wurde nicht richtig kodiert) oder Generalangriffe (wie “Persönlichkeit kann man doch überhaupt nicht messen”) mit aller Kraft zu entkräften. War hier nicht der Fall.

Aber: die Aufregung ist eigentlich ungerechtfertigt. Ein Abstract hat, solange die Ergebnisse noch nicht als Fachartikel publiziert werden, in der Wissenschaft keinen Stellenwert. Also: Kirche im Dorf lassen….
#18 Andreas Hergovich
7. November 2014

Nachtrag zur kleinen Stichprobe: besser: auch ein durchschnittlicher Unterschied zw. 2 Personengruppen (z.B. Österreichern und Deutschen) von 0,002mm wird signifikant, wenn die Stichproben nur groß genug sind. Die Signifikanz von 2 Personen wird natürlich nicht verglichen.
#19 Amalgam: ein skeptischer Beta-Fehler? – Kritisch gedacht
17. November 2014

[…] Beiträge an dieser Stelle von Ende Oktober haben deutlich gemacht, dass auch die Wiener Skeptiker sich nicht […]
#20 knorke
19. November 2014

Ich muss Andreas Hergowich hier zustimmen: Die Argumente, mit denen die Studie kritisiert wird sind nicht besonders gut ausgewählt.

Ich finde, grade wenn man sich kritisch mit anderer Leute Arbeit auseinandersetzt sollte man darauf achten, dass die eigenen Argumente auch trittsicher genug sind, man tut sonst sich und der Sache keinen Gefallen.

Ob die Stichprobe wiederum zu groß ist, sei mal dahingestellt, es wurden ja keine Effektstärken berichtet (jedenfalls habe ich es nicht mitbekommen) – wenn das Ganze experimentell angelegt wäre, wäre die Stichprobengröße eventuell gezielt so gewählt worden, das hier scheint aber explorativ zu sein, da würde mich* etwas mehr als die Signifikanz schon interessieren.

* mich = das literarische “mich” … eigentlich habe ich keine Lust, mich mit der Studie zu beschäftigen 🙂

Das ist dann auch das eigentliche Problem: Man weiß ja nicht irrsinnig viel über die Studie, außer dem Effekt und der Interpretation – und da allein kann es schon ins Kraut schießen.

Hier muss man einfach mal abwarten, bis das Ding veröffentlicht ist
#21 knorke
19. November 2014

P.S. den Effektstärkenteil hätte ich mir nach Lesen der Kommentare klemmen können. Dazu wurde ja weiter Stellung genommen.