Wie repräsentativ sind eigentlich die Versuchsgruppen in der psychologischen Forschung? Dieser Frage gingen drei kanadische Psychologen nach – und entdeckten Erstaunliches: Ein Großteil aller Testsubjekte sind (US-)Psychologiestudenten. Wie aber wirkt sich das auf die Aussagekraft der Forschungsergebnisse aus?
Eine enorm spannende Frage, über die ich gerne noch ausführlicher bloggen würde, wozu mir momentan aber leider die Zeit fehlt, weshalb ich es bei einigen Überlegungen zum kürzlich im Journal of Behavioral Science erschienenen Paper von Joseph Henrich, Stephen J. Heine und Ara Norenzayan belassen will – vielleicht wird ja eine spannende Diskussion daraus:
Henrich, J., Heine, S., & Norenzayan, A. (2010). The weirdest people in the world? Behavioral and Brain Sciences, 33 (2-3), 61-83 DOI: 10.1017/S0140525X0999152X
Worin besteht das Grundproblem?
Wie kommen Doktoranden und Studenten der Psychologie an amerikanischen Universitäten zu Testpersonen, die Fragebögen ausfüllen, an Experimenten oder Gruppendiskussionen teilnehmen oder sich Versuchen mit fMRI-Scans oder eyetrackern unterziehen? Ganz einfach – man sucht sich ein für Studenten attraktives Incentive, schreibt einen Aushang und hängt ihn in der Mensa, in Studentenwohnheimen und Studentenclubs aus (oder verpflichtet als Lehrender ganz einfach die eigenen Studenten). Mit anderen Worten: Man holt sich die Probanden dort, wo sie leicht zugänglich und zahlreich verfügbar sind.
Wird eine Probandengruppe nicht nach dem Zufallsprinzip, sondern dem Prinzip der Verfügbarkeit zusammengestellt, bezeichnet man dies in der Statistik als „Convenience Sample”. Meine Studenten haben beispielsweise immer gerne ihre Freunde und Verwandten befragt, oder sind auf der Suche nach „Opfern” für ihre Seminarbefragungen auf die Straße oder ins Kaufhaus gegangen. Alle diese Samplings folgen im Grunde dem gleichen Muster, denn aufgenommen werden nicht etwa Personen, die rein zufällig aus der Grundgesamtheit gezogen wurden, sondern solche, an die man ohne großen Aufwand (convenient = bequem) herankommt. Es liegt nahe, dass man die auf diese Weise gewonnenen Ergebnisse nicht verallgemeinern kann, d.h. eine derartige „Umfrage” mag zwar noch ein einigermaßen brauchbares Bild der Familie von Student X oder der Gruppe der mittäglichen Kunden von Kaufhaus Y vermitteln, darüber hinaus liefert sie jedoch keine zuverlässigen Erkenntnisse.
Während man in der Markt- und Meinungsforschung aus genau diesem Grund auf Convenience Samples verzichtet (es sei denn für qualitative Vorstudien), scheint es zumindest in der US-Psychologie gang und gäbe zu sein, primär mit studentischen Testpersonen zu arbeiten. Eine Analyse der Probandenzusammensetzung in hunderten psychologischer Studien durch Henrich, Heine und Norenzayan ergab, dass rund 96% aller Testpersonen aus westlichen Industriestaaten stammten, die jedoch nur knapp 12% der Weltbevölkerung ausmachen. Ganze 67% der amerikanischen Versuchspersonen waren wiederum selbst Psychologiestudenten.
Behavioral scientists routinely publish broad claims about human psychology and behavior in the world’s top journals based on samples drawn entirely from Western, Educated, Industrialized, Rich and Democratic (WEIRD) societies. Researchers – often implicitly – assume that either there is little variation across human populations, or that these „standard subjects” are as representative of the species as any other population.
Diese Zahlen führen einen zwangsweise zu dem Schluss, dass das Bild der Wissenschaft von der menschlichen Psyche maßgeblich durch eine vergleichsweise kleine Subgruppe bestimmt wird – eine Subgruppe, der Henrich, Heine und Norenzayan in ihrem Paper das passende Akronym WEIRD für „Western, Educated, Industrialized, Rich and Democratic” verleihen. Nun kann man zwar auf der einen Seite nachvollziehen, wie es zu dieser Praxis kommt – der Student an der eigenen Universität lässt sich nun mal leichter für einen Versuch oder eine Umfrage gewinnen, als der afrikanische Zulu – es stellt sich jedoch die beunruhigende Frage, ob vieles von dem, was wir heute über die menschliche Psyche zu wissen glauben, zwar für die Psyche des durchschnittlichen Amerikaners (bzw. des US-Psychologiestudenten) gelten mag, auf die Menschheit an sich aber nicht anwendbar ist.
Repräsentative Stichprobe – oder Convenience Sample?
Wie stark der durch das Übermaß an studentischen Probanden verursachte Bias tatsächlich ist, lässt sich nur schwer erahnen, immerhin ist die Arbeit mit studentischen Testpersonen gängige Praxis, so dass eine mögliche Verzerrung sich von Studie zu Studie bestätigen würde. Grundsätzlich gilt, dass die Daten, die man über ein Convenience Sample gewinnt, nicht zwangsweise unzuverlässig sein müssen, wohl aber sein können, wobei man jedoch keine Möglichkeit hat, den Grad ihrer Zuverlässigkeit zu ermitteln, weshalb man auf eine Verallgemeinerung der Erkenntnisse über den Horizont der befragten Gruppe hinaus in aller Regel verzichtet. Mit anderen Worten: Convenience Samples sind statistisch unsauber und damit im Grunde für wissenschaftliche Erhebungen ungeeignet, sie müssen einen jedoch nicht vollkommen in die Irre führen.
Man nehme das Beispiel der Supermarkt-Befragung: Würden sich die Studenten hier zum Beispiel nach der Regelmäßigkeit der Zahnhygiene erkundigen, ließe sich das Ergebnis noch eher verallgemeinern als dies bei einer Umfrage zu verfügbarem Monatseinkommen oder ausgeübtem Beruf der Fall wäre, da man zumindest vermuten kann, dass sich die zu einer bestimmten Stunde in diesem bestimmten Supermarkt angetroffenen Kunden hinsichtlich ihrer Zahnhygiene nicht wesentlich von großen Teilen der Bevölkerung unterscheiden, während man bei Einkommen oder Arbeitsplatz davon ausgehen muss, dass aufgrund der Preisstruktur des Marktes sowie dem Zeitpunkt der Befragung bestimmte Gruppen stark unter- oder überrepräsentiert sind*. Über die Verallgemeinerbarkeit der Ergebnisse kann man bei einem Convenience Sample daher zwar spekulieren, jedoch keine gesicherten Aussagen treffen, womit sie für die empirische Forschung praktisch wertlos sind.
Das Problem wird dadurch verschärft, dass es im Prinzip zwei Stufen der Fehlselektion gibt: Zum einen werden Probanden primär in den Ländern gesucht, in denen die Forschung auch stattfindet, wodurch es zur Dominanz der WEIRD-Populationen kommt, innerhalb derer dann auch noch die – für solche Untersuchungen besonders leicht verfügbaren – Studenten deutlich überrepräsentiert sind. Wenn also die WEIRD-Populationen wenig repräsentativ für die Menschheit insgesamt sind und sich die Studierenden innerhalb einer WEIRD-Population nochmal deutlich vom Rest der Population unterscheideden, dann sieht es für die Verallgemeinerbarkeit der Ergebnisse in der Tat ziemlich schlecht aus**.
Man kann leider nur Vermutungen darüber anstellen, wie groß denn die Verzerrungen sein könnten, die sich durch die große Anzahl studentischer Probanden über die Jahrzehnte z.B. in der Verhaltensforschung eingeschlichen haben – dass es welche gibt, dürfte allerdings außer Frage stehen. Von entscheidender Bedeutung ist dabei die bereits angesprochene Frage, wie sehr sich die WEIRD-Subgruppe im Hinblick auf ihr Verhalten vom Rest der Menschheit unterscheidet. Vereinfacht ausgedrückt müsste man also wissen, ob ein fMRI-Scan an einem Psychologiestudenten eher mit der Frage nach der Zahnhygiene
oder mit der nach dem verfügbaren Einkommen im Supermarkt zu vergleichen ist.
Wie wirkt sich diese Stichprobenpraxis auf unser Bild vom Menschen aus?
Das Paper von Henrich kommt zu dem Schluss, dass die spezielle Gruppe der US-Studenten als nicht repräsentativ für das menschliche Verhalten an sich zu betrachten ist – so zeigen sich große Unterschiede im Vergleich zu anderen Subgruppen unter anderem im Bereich der visuellen Wahrnehmung, im Kooperationsverhalten und bei der Entscheidungsfindung. Der US-Blogger (und vor Pepsigate auch ScienceBlogger) Eric Michael Johnson (“The Primate Diaries”) führt in einem Blogpost zum Paper auf PLOS ein beispielhaftes Experiment an,
bei dem die Probanden schätzen sollen, welche der beiden Linien die längere ist:
Im Prinzip handelt es sich um eine ziemlich bekannte optische Täuschung (für die es, wie ich durch Johnsons Blogpost gelernt habe, sogar eine eigene Fachbezeichnung gibt: die Müller-Lyer-Illusion), die bei den meisten US-Amerikanern – und, wie ich annehme, auch den meisten Deutschen – den Eindruck hervorruft, Linie b sei zumindest ein Stück länger als Linie a. Bereits 1966 führte der Psychologe Marshall H. Segall Versuche mit Menschen verschiedener Kulturkreisen durch, deren Zweck darin bestand herauszufinden, um welche Größe a verlängert werden muss, bevor die Probanden a und b als gleichlang wahrnehmen.
Es zeigten sich erhebliche Unterschiede zwischen den Probandengruppen – so musste Linie a beispielsweise bei Studenten der University of Illinois im Schnitt um 1/5 verlängert werden, bevor sie beide Linien als gleichlang betrachteten, während die Mitglieder eines in der Kalahari lebenden Volksstammes mehrheitlich gar nicht erst auf die Illusion “hereinfielen”. Man geht davon aus, dass die unterschiedlichen Lebensumstände bei der Herausbildung visueller Fähigkeiten während der Kindeheit dazu führen, dass die optische Täuschung unterschiedlich wahrgenommen wird. Insbesondere scheint sich die Wahrnehmung von Kindern, die in einer urbanen Umgebung aufgewachsen sind, von der von Kindern zu unterscheiden, die im ständigen Kontakt mit der Natur großwerden.
Unsere Vorstellungen von menschlichem Verhalten und kognitiver Entwicklung basieren demnach erheblich auf Untersuchungen an einer Subgruppe, die – zumindest psychologisch betrachtet – in hohem Maße unrepräsentativ für die Spezies Mensch zu sein scheint:
The findings suggested that members of WEIRD societies, including young children, are among the least representative populations one could find for generalizing about humans.
Haben wir also während der lezten Jahrzehnte gar nicht so viele neue Einsichten in Verhalten und Psyche des Menschen bekommen, sondern statt dessen hauptsächlich Erkenntnisse über Verhalten und Psyche amerikanischer Psychologiestudenten gesammelt? Und was müsste sich zukünftig in der psychologischen Forschung ändern, falls dies tatsächlich so sein sollte?
Wie könnte man diesem Effekt entgegenwirken?
Auf den ersten Blick ist die Antwort einfach: Die Verhaltensforschung der Zukunft sollte auf eine breitere Basis an Testpersonen zurückgreifen, welche die kulturelle Vielschichtigkeit der Spezies adäquat widerspiegeln. Dies scheint mir jedoch sehr viel leichter gesagt als getan, schließlich wird sich auch in der weiter entfernten Zukunft sicher keine „planetare Zufallsauswahl” realisieren lassen, weshalb es mir der einzig gangbare Weg zu sein scheint, Testgruppen zu quotieren, um damit den Einfluss der WEIRD-Teilnehmer auf das Ergebnis auf ein angemessenes Maß zu begrenzen.
Nur: Nach welchen Merkmalen konnte denn überhaupt quotiert werden? Welche Populationen unterscheiden sich denn hinsichtlich welcher kognitiven oder Verhaltensmerkmale so deutlich von den WEIRD-Populationen, dass sie in einer quotierten Probandengruppe vertreten sein müssten, um eine Verallgemeinerbarkeit der Ergebnisse auf „die Menschheit an sich” zu erreichen? Wie könnte man solche Gruppen überhaupt zusammenstellen – und unter welchen Kosten? Und welche statistischen Maßstäbe setzt man für qualitative Forschung an, die ja ohnehin nicht auf eine Repräsentativität im mathematischen Sinn abzielt?
Viele Fragen, wenig offensichtliche Lösungen. Wenn das keine Herausforderung für künftige Generationen von Psychologen und Verhaltensforschern ist…
Diskussionen über „The weirdest people in the world” in der US-Blogosphäre:
- Deric Bownd: The weirdest people in the world?
- Wai Keen Vong: The weirdest people in the world?
- Tom Stafford: Is it weird in here, or is it just me?
- Greg Downey: We agree it’s WEIRD, but is it WEIRD enough?
- Eric Michael Johnson: Reflections on the WEIRD evolution of human psychology
- Michael Meadon: Are most experimental subjects in behavioral science WEIRD?
* Mir ist klar, dass auch zwischen dem Einkommen und der Gesunderhaltung – z.B. über
den für zahnärztliche Behandlungen zur Verfügung stehenden Einkommensanteil – Brücken geschlagen werden können, weshalb ich auch die Ergebnisse einer solchen Supermarkt-Befragung zur Zahnhygiene keinesfalls als repräsentativ betrachten würde. Die Verzerrung, die durch die Art der Stichprobenziehung entsteht, dürfte aber weniger stark sein, als bei einer Frage nach Einkommen oder Beruf.
** Ein Problem, dass übrigens nicht von Henrich et al. entdeckt wurde – so schrieb beispielsweise John Arnett 2008 einen Artikel für den American Psychologist, der den vielsagenden Titel „The neglected 95%: Why American psychology needs to become less American” trägt. Tatsächlich datieren die ersten Artikel, die sich mit der Problematik befassen, schon auf die 60er Jahre zurück. Das Paper von Henrich et al. sticht jedoch heraus, weil es nicht nur überzeugend belegt, dass bestimmte Gruppen in der Forschung überrepräsentiert sind, sondern sich zudem ganz erheblich vom „Rest der Menscheit” unterscheiden, was in der Tat kein gutes Licht auf alle Aussagen über die „Psyche des Menschen” wirft, die sich aus diesen Studien ableiten…
Kommentare (34)