Wie repräsentativ sind eigentlich die Versuchsgruppen in der psychologischen Forschung? Dieser Frage gingen drei kanadische Psychologen nach – und entdeckten Erstaunliches: Ein Großteil aller Testsubjekte sind (US-)Psychologiestudenten. Wie aber wirkt sich das auf die Aussagekraft der Forschungsergebnisse aus?

Eine enorm spannende Frage, über die ich gerne noch ausführlicher bloggen würde, wozu mir momentan aber leider die Zeit fehlt, weshalb ich es bei einigen Überlegungen zum kürzlich im Journal of Behavioral Science erschienenen Paper von Joseph Henrich, Stephen J. Heine und Ara Norenzayan belassen will – vielleicht wird ja eine spannende Diskussion daraus:

ResearchBlogging.orgHenrich, J., Heine, S., & Norenzayan, A. (2010). The weirdest people in the world? Behavioral and Brain Sciences, 33 (2-3), 61-83 DOI: 10.1017/S0140525X0999152X

Worin besteht das Grundproblem?

Wie kommen Doktoranden und Studenten der Psychologie an amerikanischen Universitäten zu Testpersonen, die Fragebögen ausfüllen, an Experimenten oder Gruppendiskussionen teilnehmen oder sich Versuchen mit fMRI-Scans oder eyetrackern unterziehen? Ganz einfach – man sucht sich ein für Studenten attraktives Incentive, schreibt einen Aushang und hängt ihn in der Mensa, in Studentenwohnheimen und Studentenclubs aus (oder verpflichtet als Lehrender ganz einfach die eigenen Studenten). Mit anderen Worten: Man holt sich die Probanden dort, wo sie leicht zugänglich und zahlreich verfügbar sind.

Brain (Das Gehirn)

Forschen an Wahrnehmungs – und Gedächtnisprozessen im FB Psychologie der Philipps-Universität Marburg (Foto: Markus Farnung)

Wird eine Probandengruppe nicht nach dem Zufallsprinzip, sondern dem Prinzip der Verfügbarkeit zusammengestellt, bezeichnet man dies in der Statistik als „Convenience Sample”. Meine Studenten haben beispielsweise immer gerne ihre Freunde und Verwandten befragt, oder sind auf der Suche nach „Opfern” für ihre Seminarbefragungen auf die Straße oder ins Kaufhaus gegangen. Alle diese Samplings folgen im Grunde dem gleichen Muster, denn aufgenommen werden nicht etwa Personen, die rein zufällig aus der Grundgesamtheit gezogen wurden, sondern solche, an die man ohne großen Aufwand (convenient = bequem) herankommt. Es liegt nahe, dass man die auf diese Weise gewonnenen Ergebnisse nicht verallgemeinern kann, d.h. eine derartige „Umfrage” mag zwar noch ein einigermaßen brauchbares Bild der Familie von Student X oder der Gruppe der mittäglichen Kunden von Kaufhaus Y vermitteln, darüber hinaus liefert sie jedoch keine zuverlässigen Erkenntnisse.

Umfrage

Convenience Sample: Befragen, wen man gerade antrifft (Foto: Radio Arabella München)

Während man in der Markt- und Meinungsforschung aus genau diesem Grund auf Convenience Samples verzichtet (es sei denn für qualitative Vorstudien), scheint es zumindest in der US-Psychologie gang und gäbe zu sein, primär mit studentischen Testpersonen zu arbeiten. Eine Analyse der Probandenzusammensetzung in hunderten psychologischer Studien durch Henrich, Heine und Norenzayan ergab, dass rund 96% aller Testpersonen aus westlichen Industriestaaten stammten, die jedoch nur knapp 12% der Weltbevölkerung ausmachen. Ganze 67% der amerikanischen Versuchspersonen waren wiederum selbst Psychologiestudenten.

Behavioral scientists routinely publish broad claims about human psychology and behavior in the world’s top journals based on samples drawn entirely from Western, Educated, Industrialized, Rich and Democratic (WEIRD) societies. Researchers – often implicitly – assume that either there is little variation across human populations, or that these „standard subjects” are as representative of the species as any other population.

Diese Zahlen führen einen zwangsweise zu dem Schluss, dass das Bild der Wissenschaft von der menschlichen Psyche maßgeblich durch eine vergleichsweise kleine Subgruppe bestimmt wird – eine Subgruppe, der Henrich, Heine und Norenzayan in ihrem Paper das passende Akronym WEIRD für „Western, Educated, Industrialized, Rich and Democratic” verleihen. Nun kann man zwar auf der einen Seite nachvollziehen, wie es zu dieser Praxis kommt – der Student an der eigenen Universität lässt sich nun mal leichter für einen Versuch oder eine Umfrage gewinnen, als der afrikanische Zulu – es stellt sich jedoch die beunruhigende Frage, ob vieles von dem, was wir heute über die menschliche Psyche zu wissen glauben, zwar für die Psyche des durchschnittlichen Amerikaners (bzw. des US-Psychologiestudenten) gelten mag, auf die Menschheit an sich aber nicht anwendbar ist.

Repräsentative Stichprobe – oder Convenience Sample?

Wie stark der durch das Übermaß an studentischen Probanden verursachte Bias tatsächlich ist, lässt sich nur schwer erahnen, immerhin ist die Arbeit mit studentischen Testpersonen gängige Praxis, so dass eine mögliche Verzerrung sich von Studie zu Studie bestätigen würde. Grundsätzlich gilt, dass die Daten, die man über ein Convenience Sample gewinnt, nicht zwangsweise unzuverlässig sein müssen, wohl aber sein können, wobei man jedoch keine Möglichkeit hat, den Grad ihrer Zuverlässigkeit zu ermitteln, weshalb man auf eine Verallgemeinerung der Erkenntnisse über den Horizont der befragten Gruppe hinaus in aller Regel verzichtet. Mit anderen Worten: Convenience Samples sind statistisch unsauber und damit im Grunde für wissenschaftliche Erhebungen ungeeignet, sie müssen einen jedoch nicht vollkommen in die Irre führen.

Man nehme das Beispiel der Supermarkt-Befragung: Würden sich die Studenten hier zum Beispiel nach der Regelmäßigkeit der Zahnhygiene erkundigen, ließe sich das Ergebnis noch eher verallgemeinern als dies bei einer Umfrage zu verfügbarem Monatseinkommen oder ausgeübtem Beruf der Fall wäre, da man zumindest vermuten kann, dass sich die zu einer bestimmten Stunde in diesem bestimmten Supermarkt angetroffenen Kunden hinsichtlich ihrer Zahnhygiene nicht wesentlich von großen Teilen der Bevölkerung unterscheiden, während man bei Einkommen oder Arbeitsplatz davon ausgehen muss, dass aufgrund der Preisstruktur des Marktes sowie dem Zeitpunkt der Befragung bestimmte Gruppen stark unter- oder überrepräsentiert sind*. Über die Verallgemeinerbarkeit der Ergebnisse kann man bei einem Convenience Sample daher zwar spekulieren, jedoch keine gesicherten Aussagen treffen, womit sie für die empirische Forschung praktisch wertlos sind.

Das Problem wird dadurch verschärft, dass es im Prinzip zwei Stufen der Fehlselektion gibt: Zum einen werden Probanden primär in den Ländern gesucht, in denen die Forschung auch stattfindet, wodurch es zur Dominanz der WEIRD-Populationen kommt, innerhalb derer dann auch noch die – für solche Untersuchungen besonders leicht verfügbaren – Studenten deutlich überrepräsentiert sind. Wenn also die WEIRD-Populationen wenig repräsentativ für die Menschheit insgesamt sind und sich die Studierenden innerhalb einer WEIRD-Population nochmal deutlich vom Rest der Population unterscheideden, dann sieht es für die Verallgemeinerbarkeit der Ergebnisse in der Tat ziemlich schlecht aus**.

Dotting the I

Studenten an der Ohio State University – ihre Chance, an einer psychologischen Studie beteiligt zu sein, übersteigt die des Normalbürgers um das 4.000-fache

Man kann leider nur Vermutungen darüber anstellen, wie groß denn die Verzerrungen sein könnten, die sich durch die große Anzahl studentischer Probanden über die Jahrzehnte z.B. in der Verhaltensforschung eingeschlichen haben – dass es welche gibt, dürfte allerdings außer Frage stehen. Von entscheidender Bedeutung ist dabei die bereits angesprochene Frage, wie sehr sich die WEIRD-Subgruppe im Hinblick auf ihr Verhalten vom Rest der Menschheit unterscheidet. Vereinfacht ausgedrückt müsste man also wissen, ob ein fMRI-Scan an einem Psychologiestudenten eher mit der Frage nach der Zahnhygiene
oder mit der nach dem verfügbaren Einkommen im Supermarkt zu vergleichen ist.

Wie wirkt sich diese Stichprobenpraxis auf unser Bild vom Menschen aus?

Das Paper von Henrich kommt zu dem Schluss, dass die spezielle Gruppe der US-Studenten als nicht repräsentativ für das menschliche Verhalten an sich zu betrachten ist – so zeigen sich große Unterschiede im Vergleich zu anderen Subgruppen unter anderem im Bereich der visuellen Wahrnehmung, im Kooperationsverhalten und bei der Entscheidungsfindung. Der US-Blogger (und vor Pepsigate auch ScienceBlogger) Eric Michael Johnson (“The Primate Diaries”) führt in einem Blogpost zum Paper auf PLOS ein beispielhaftes Experiment an,
bei dem die Probanden schätzen sollen, welche der beiden Linien die längere ist:

Müller-Lyer.jpg

Im Prinzip handelt es sich um eine ziemlich bekannte optische Täuschung (für die es, wie ich durch Johnsons Blogpost gelernt habe, sogar eine eigene Fachbezeichnung gibt: die Müller-Lyer-Illusion), die bei den meisten US-Amerikanern – und, wie ich annehme, auch den meisten Deutschen – den Eindruck hervorruft, Linie b sei zumindest ein Stück länger als Linie a. Bereits 1966 führte der Psychologe Marshall H. Segall Versuche mit Menschen verschiedener Kulturkreisen durch, deren Zweck darin bestand herauszufinden, um welche Größe a verlängert werden muss, bevor die Probanden a und b als gleichlang wahrnehmen.

Es zeigten sich erhebliche Unterschiede zwischen den Probandengruppen – so musste Linie a beispielsweise bei Studenten der University of Illinois im Schnitt um 1/5 verlängert werden, bevor sie beide Linien als gleichlang betrachteten, während die Mitglieder eines in der Kalahari lebenden Volksstammes mehrheitlich gar nicht erst auf die Illusion “hereinfielen”. Man geht davon aus, dass die unterschiedlichen Lebensumstände bei der Herausbildung visueller Fähigkeiten während der Kindeheit dazu führen, dass die optische Täuschung unterschiedlich wahrgenommen wird. Insbesondere scheint sich die Wahrnehmung von Kindern, die in einer urbanen Umgebung aufgewachsen sind, von der von Kindern zu unterscheiden, die im ständigen Kontakt mit der Natur großwerden.

Unsere Vorstellungen von menschlichem Verhalten und kognitiver Entwicklung basieren demnach erheblich auf Untersuchungen an einer Subgruppe, die – zumindest psychologisch betrachtet – in hohem Maße unrepräsentativ für die Spezies Mensch zu sein scheint:

The findings suggested that members of WEIRD societies, including young children, are among the least representative populations one could find for generalizing about humans.

Haben wir also während der lezten Jahrzehnte gar nicht so viele neue Einsichten in Verhalten und Psyche des Menschen bekommen, sondern statt dessen hauptsächlich Erkenntnisse über Verhalten und Psyche amerikanischer Psychologiestudenten gesammelt? Und was müsste sich zukünftig in der psychologischen Forschung ändern, falls dies tatsächlich so sein sollte?

Wie könnte man diesem Effekt entgegenwirken?

Auf den ersten Blick ist die Antwort einfach: Die Verhaltensforschung der Zukunft sollte auf eine breitere Basis an Testpersonen zurückgreifen, welche die kulturelle Vielschichtigkeit der Spezies adäquat widerspiegeln. Dies scheint mir jedoch sehr viel leichter gesagt als getan, schließlich wird sich auch in der weiter entfernten Zukunft sicher keine „planetare Zufallsauswahl” realisieren lassen, weshalb es mir der einzig gangbare Weg zu sein scheint, Testgruppen zu quotieren, um damit den Einfluss der WEIRD-Teilnehmer auf das Ergebnis auf ein angemessenes Maß zu begrenzen.

Nur: Nach welchen Merkmalen konnte denn überhaupt quotiert werden? Welche Populationen unterscheiden sich denn hinsichtlich welcher kognitiven oder Verhaltensmerkmale so deutlich von den WEIRD-Populationen, dass sie in einer quotierten Probandengruppe vertreten sein müssten, um eine Verallgemeinerbarkeit der Ergebnisse auf „die Menschheit an sich” zu erreichen? Wie könnte man solche Gruppen überhaupt zusammenstellen – und unter welchen Kosten? Und welche statistischen Maßstäbe setzt man für qualitative Forschung an, die ja ohnehin nicht auf eine Repräsentativität im mathematischen Sinn abzielt?

Viele Fragen, wenig offensichtliche Lösungen. Wenn das keine Herausforderung für künftige Generationen von Psychologen und Verhaltensforschern ist…

Jumping Brain - Prototype

Diskussionen über „The weirdest people in the world” in der US-Blogosphäre:


* Mir ist klar, dass auch zwischen dem Einkommen und der Gesunderhaltung – z.B. über
den für zahnärztliche Behandlungen zur Verfügung stehenden Einkommensanteil – Brücken geschlagen werden können, weshalb ich auch die Ergebnisse einer solchen Supermarkt-Befragung zur Zahnhygiene keinesfalls als repräsentativ betrachten würde. Die Verzerrung, die durch die Art der Stichprobenziehung entsteht, dürfte aber weniger stark sein, als bei einer Frage nach Einkommen oder Beruf.

** Ein Problem, dass übrigens nicht von Henrich et al. entdeckt wurde – so schrieb beispielsweise John Arnett 2008 einen Artikel für den American Psychologist, der den vielsagenden Titel „The neglected 95%: Why American psychology needs to become less American” trägt. Tatsächlich datieren die ersten Artikel, die sich mit der Problematik befassen, schon auf die 60er Jahre zurück. Das Paper von Henrich et al. sticht jedoch heraus, weil es nicht nur überzeugend belegt, dass bestimmte Gruppen in der Forschung überrepräsentiert sind, sondern sich zudem ganz erheblich vom „Rest der Menscheit” unterscheiden, was in der Tat kein gutes Licht auf alle Aussagen über die „Psyche des Menschen” wirft, die sich aus diesen Studien ableiten…

Kommentare (34)

  1. #1 voerdus
    25. Oktober 2010

    Ein weiteres Problem, welches durch den großen Anteil an Psychologiestudenten in den Probandengruppen entstehen könnte ist zudem die Tatsache das betreffende Probanden bei vielen Experimenten über ein explizites psychologisches Vorwissen verfügen können.
    So können ihnen Versuchsparadigmen bekannt sein und sie können eventuell in erhöhtem Maße den Verlauf eines Experimentes antizipieren und dadurch bewusst sowie unbewusst beeinflussen.

  2. #2 JV
    25. Oktober 2010

    Noch genauer: Die Stichproben sind meist Psychologiestudenten, überwiegend weiblich und überwiegend im Grundstudium (da die meisten Unis eine bestimmte Anzahl von Versuchspersonenstunden als eine Voraussetzung für die Meldung zum Vordiplom oder wie das jetzt heißt fordern).

    Übrigens habe ich auch in Marburg Psychologie studiert…. ;-))

  3. #3 Christian Reinboth
    25. Oktober 2010

    @voerdus: Stimmt, der Effekt kommt eigentlich noch hinzu – wenn es sich nicht gerade um Erstsemester handelt, dürften die Studierenden meist mehr über den Test wissen, als es vermutlich wünschenswert wäre…

    @JV: Das Sample von Henrich et al. umfasste ja – soweit ich das überblicke – primär englischsprachige Veröffentlichungen – wird denn in Deutschland tatsächlich genauso verfahren? Eigentlich liegt es doch klar auf der Hand, dass ein Experiment, an dem womöglich nur weibliche Psychologie-Grundstudenten beteiligt sind, nur sehr, sehr begrenzt Zugang zur Psyche “des Menschen” verschafft. Ich bin in der Psychologie nicht so bewandert, aber rein statistisch betrachtet scheint mir das doch ein riesiger Pferdefuß zu sein, gerade wenn es um Bereiche geht, bei denen ich von einem Unterschied zwischen meinem Stichproben-Pool und dem Rest der Bevölkerung ausgehen muss. Man würde ja auch nicht auf die Idee kommen, die Ergebnisse einer Umfrage zur Beliebtheit von Weißwürsten, an der sich nur Bayern beteiligt haben, ließen sich 1:1 auf die Gesamtbevölkerung umlegen…

  4. #4 BreitSide
    25. Oktober 2010

    @JV: “überwiegend weiblich”? Ich hatte jetzt mehrheitlich männliche Studenten vor meinem geistigen Auge (ok, vielleicht eine Erfahrung des Ing-Studiums, aber vielleicht eben auch durch die Männlichkeit des Wortes “Student” geschuldet). Aber das sind andere Freds bei MartinB, JürgenS, JörgR…

    @CR: in der Tat, so eine Meldung hatte ich auch schon früher gelesen. Gefühlt vor mindestens 20 Jahren. Da bezog man sich aber nur auf den Teilaspekt intro-/extrovertiert und bemerkte, dass 1. Studenten und davon 2. die, die bei sowas mitmachen, doch extrovertierter seien als der Durchschnitt. Was man glaubich damals auch mit Zahlen belegte.

    Das mit der Müller-Thurgau-Störung hatte ich auch mal vor ein paar Jahren bei Manfred Spitzer in einer Sonntags-Publikums-Vorlesung gehört. Er hatte argumentiert, dass die 2 Figuren als Kanten von Quadern interpretiert würden. Um 90 ° gedreht “erkennt” (also interpretiert) “man” (also der mit entsprechenden Vorerfahrungen) eine konvexe oder konkave Zimmerecke. Die konvexe ist gefährlicher beim dagegen Krabbeln/Tapsen/Rennen, wird also vom Hirn schon in früher Kindheit virtuell vergrößert. Buschleute/San haben solche Ecken nicht in ihrer Umgebung.

    Ich weiß übrigens auch, dass man Spitzers Thesen, die er immer äußerst überzeugend vorträgt, mit Vorsicht betrachten soll. Ein Mensch aus dem gleichen Fach, den ich mal zufällig kennenlernte, meinte, Spitzer bringe sein Fach in Verruf, da er viele nassforsche Aussagen in die Welt setze ohne besondere Prüfung (die dann oft das Gegenteil ergeben hatte).

  5. #5 JV
    25. Oktober 2010

    @ CR:
    “wird denn in Deutschland tatsächlich genauso verfahren?”

    Kommt natürlich drauf an, um was für eine Studie es sich handelt. Braucht man Kontrollprobanden in der klinischen Psychologie, orientiert man sich natürlich an der Soziodemographie der Experimentalgruppe. Aber bei reinen Verhaltens- oder Wahrnehmungsexperimenten greift man doch durchaus oft auf die studentische Population zurück, genau wie in den USA.
    Allerdings sind jetzt Probleme bei Verallgemeinerungen von westlichen Stichproben auf nicht-westliche Populationen oder von studentischen Populationen auf die Gesamtbevölkerung natürlich auch in der Experimentalpsychologie nicht völlig unbekannt. Mir ist auch keine Anmaßung im Stil von “jetzt haben wir die Psyche des Menschen erklärt, weil wir hier ein Experiment gemacht haben” bekannt.

  6. #6 JV
    25. Oktober 2010

    Copy-Fail, der untere Abschnitt kann gelöscht werden.

  7. #7 Christian Reinboth
    25. Oktober 2010

    @JV

    Copy-Fail, der untere Abschnitt kann gelöscht werden.

    Erledigt.

    Mir ist auch keine Anmaßung im Stil von “jetzt haben wir die Psyche des Menschen erklärt, weil wir hier ein Experiment gemacht haben” bekannt.

    Natürlich nicht – so war das auch nicht gemeint. Im Grunde erforscht man doch aber – über die Summe aller Experimente und Veröffentlichungen hinweg – letztendlich “die” Psyche “des” Menschen – oder zumindest wird es von Nicht-Fachleuten so wahrgenommen, weshalb ja vermutlich auch das Henrich-Paper mit “Behavioral scientists routinely publish broad claims about human psychology and behavior in the world’s top journals based on samples drawn entirely from Western, Educated, Industrialized, Rich and Democratic (WEIRD) societies.” einleitet. Es geht ja in der Psychologie auch nicht um repräsentative Meinungsbilder oder ähnliches, trotzdem stelle ich es mir schwierig vor, die Ergbnisse aus z.B. einem Versuch zum Kooperation oder zur visuellen Wahrnehmung mit einer rein studentischen Testgruppe auf eine andere Bevölkerungsgruppe zu übertragen.

    Denn wie könnte man sich je sicher sein, ob nicht die spezifischen Eigenschaften, die einen Menschen zum Psychologie-Studium befähigen, auch einen erheblichen Einfluss auf sein Testverhalten haben? Finde ich vom rein statistischen Standpunkt aus betrachtet eine spannende Frage…

  8. #8 JV
    25. Oktober 2010

    Ich finde das auch sehr interessant (danke übrigens für den Artikel, den kannte ich nicht). Nicht nur aus statistischer Sicht, sondern aus – betrachtet man den ersten Teil des Papers – aus evolutionspsychologischer Sicht.
    Was mir an dem Paper allerdings fehlt (wobei ich es erstmal nur überflogen habe, habe gerade wenig Zeit, ein 70-Seiten-Paper zu lesen), sind Effektstärken. Dass man Unterschiede findet, wenn man nur genügend Studien heranzieht, ist noch kein Wunder – entscheidend sind jedoch die Größen dieser Unterschiede. Beim Vergleich zwischen industrialisierten Gesellschaften und kleinen nicht-industrialisierten Gruppen scheinen diese Effekte ja durchaus bemerkenswert zu sein, aber auch hier muss man sich auf die Grafiken verlassen. Das finde ich schade.
    Wie selektiv die Auswahl der Studien ist, ist wie immer unklar – aber das kann man nur geringfügig den Autoren ankreiden, schließlich werden nur Positivstudien veröffentlicht, die alte Krankheit der Wissenschaft.

    Bezüglich der typischen Eigenschaften, die zum Psychologiestudium befähigen… Tja, keine Ahnung. Würde mich auch mal interessieren. Rein vom Gefühl her würde ich aber sagen, dass das Selbstkonzept der Psychologiestudenten hinsichtlich der sozialen Fähigkeiten stärker ausgeprägt ist, als die tatsächlichen Unterschiede. Einfach deswegen, weil “soziale Fähigkeiten” deutlich abstrakter ist als z.B. “Mathekompetenz” und somit einen Vergleich nur schwer ermöglicht. Dazu kommt, dass meiner Erfahrung nach gerade im Grundstudium die Population in der Psychologie doch recht heterogen ist.
    Aber das sind nur subjektive Werte – eine entsprechende Studie fände ich spannend. Leider kenne ich keine.

  9. #9 JV
    25. Oktober 2010

    Nachtrag: Wie komme ich denn auf 70 Seiten? Naja, egal.

  10. #10 jitpleecheep
    25. Oktober 2010

    Zum Thema ‘Situation in Deutschland’:

    Bei mir an der Uni sind convenience samples gängige Praxis, zumindest bei Studienjahres- und Diplomarbeiten. Da ist einfach keinerlei Geld da, um die Proband_innen ordentlich zu entlohnen, daher greift man dann entweder auf das soziale Umfeld zurück oder zwangsverpflichtet Studierende, die das als Scheinzulassung brauchen. (Bei Dissertationen wird mehr drauf geachtet, aber auch da kommt das vor.)

    In den meisten Fällen ist das auch kein Problem, wer interessiert sich schon für irgendwelche DAs, aber manchmal…
    Aus meiner Studienjahresarbeit ist z. B. ein Forschungs-Antrag entstanden (und bewilligt worden), obwohl die Untersuchungsergebnisse, rein aufgrund der ‘Stichprobe’, naja, sagen wir mal diskutabel waren. Egal, Gelder abgreifen. Da stehst du daneben und glaubst es nicht.

    Neulich ‘durfte’ ich eine Untersuchung (im Rahmen einer nicht völlig unwichtigen Standardisierung) durchführen, die eigtl ein ‘trained panel’ [1] voraussetzt. War aber kein Geld dafür da, also wurde kurzerhand ein convenience sample zum trained panel ‘hochtrainiert’ (in einer Session, ja nee, is klar…) und gut war. Egal, die Technologie will verkauft werden, also müssen wir in den Standard. Hallo Vergleichbarkeit?

    Und das kenn ich auch von anderen Unis und Forschungsgruppen in Deutschland, Frankreich, Korea und Japan, in einem Fall auch von der NASA (ja, die betreiben auch Psychologie. Wahrnehmungspsychologie.). Wenn man die internen Reports mal auf dem Schreibtisch hatte, lesen sich einige Papers dezent anders…

    Science at it’s best. Vieles ist einfach nur Müll, muss aber verkauft werden damit die Gelder weiter fließen.

    Das findet natürlich alles nicht in einem kritischen Bereich, also Medizin oder so, statt. Aber zumindest Forschungsgelder werden halt auch in meinem Bereich, und das nicht zu knapp, durch und aufgrund schlechter samples völlig verheizt.

    [1] Proband_innen, die gut geschult und empfindlich sind.

  11. #11 Christian Reinboth
    26. Oktober 2010

    jitpleecheep: Das liest sich nicht gut. Erinnert mich ein wenig an eigene Erfahrungen in der Marktforschung – da wird zwar immer gut auf das Sample geachtet (weil die Kunden um die Wichtigkeit des Samplings wissen), dafür nimmt man es mit anderen Regeln oft nicht ganz so genau. Ich habe zum Beispiel schon mehr als einmal erlebt, dass man in MaFo-Unternehmen auch bei nicht-metrischen Werten mal eben das arithmetische Mittel berechnet, “weil die Kunden keinen Median kennen”. Wenn man dann vorschlägt, doch mal auf den Median umzusteigen und es dem Kunden halt zu erklären, bekommt man zu hören, die Ergebnisse der Versuchsreihen seien dann ja nicht mehr vergleichbar, zudem könne man dem Kunden schlecht erklären, dass man schon seit Jahren eigentlich falsch rechnet.

    Ähnlich läuft das manchmal auch bei multivariaten Komplexverfahren, bei denen man Voraussetzungen wie die Normalverteilung der Residuen etc. pp. übergeht, wenn sich ein (aus Kundensicht) “brauchbares” Ergebnis andeutet. Und so bleibt dann alles beim alten und am Ende hat man Ergebnisse in der Hand, von denen man selbst weiß, dass sie eigentlich nicht viel taugen…

  12. #12 Dr. Webbaer
    26. Oktober 2010

    Sehr interessanter Blogeintrag!

    Wie könnte man diesem Effekt entgegenwirken?

    Auf den ersten Blick ist die Antwort einfach: Die Verhaltensforschung der Zukunft sollte auf eine breitere Basis an Testpersonen zurückgreifen, welche die kulturelle Vielschichtigkeit der Spezies adäquat widerspiegeln. Dies scheint mir jedoch sehr viel leichter gesagt als getan…

    Höhö! So ist es. Wenn man nicht auf Grund bestimmter Überlegungen mit Pools arbeitet, die als repräsentativ gelten, dann wird es gaanz schnell sher unwirtschaftlich. Und ansonsten ist die Studienarbeit gefährdet. – Richtig lustig wirds natürlich, wenn man überrepräsentiert Studis (a.k.a. “studentische Probanden”) antreten lässt.

    Die Probleme sind also vielschichtig, man wird mit Näherungen und gelegentlichen Studien mit Falschaussagen leben müssen. Was auch nicht so schlimm ist, denn die Ratekunst (Stochastik) kommt ja noch hinzu – und die ist auch “nicht ohne”.

    MFG
    Dr. Webbaer

  13. #13 Lucomo
    26. Oktober 2010

    Bei der Kritik an der Versuchspersonen-Zusammensetzung wird übersehen, dass es in der Psychologie oftmals um die Identifikation von Einflussfaktoren geht, die das menschliche Erleben und Verhalten verändern. Nehmen wir ein Beispiel aus der Sportpsychologie mit der Fragestellung: “Verbessert vorheriges mentales Vergegenwärtigen eines motorischen Ablaufs die Qualität (z.B. Schnelligkeit oder Korrektheit) der Durchführung des motorischen Handlungsablaufs?”

    Bei solchen Fragestellungen zu Einflussfaktoren geht es nicht darum, zu erfassen, wie stark diese Einflussfaktoren bei allen Menschen oder bei unterschiedlichen Menschengruppen wirken, sondern es geht erst einmal nur darum zu schauen, ob es diese Einflussfaktoren überhaupt gibt.

    Bei derartigen Fragestellungen wirkt sich die Heterogenität oder Homogenität der Versuchspersonengruppe wie folgt aus:

    Angenommen die Fähigkeit, durch bloßes Vorstellen eines motorischen Handlungsablauf die anschließende Durchführung der Handlung zu verbessern, sei bei unterschiedlichen Menschen unterschiedlich stark ausgeprägt. Sagen wir, Merkmal X einer Person begünstigt die Wirkung des Einflussfaktors und sagen wir dass diese Tatsache bislang unbekannt ist. Der Versuchsplaner kann also seine Versuchspersonengruppe nicht einteilen nach Personen mit Merkmal X und Personen ohne Merkmal X, weil er schlicht nicht weiß, dass Merkmal X eine Rolle spielt.

    Angenommen Merkmal X kommt bei Studenten nicht vor, so wäre das Ergebnis der Studie: Mentale Vorstellung wirkt nicht oder nur wenig.

    Angenommen Merkmal X kommt bei Studenten gehäuft vor, so wäre das Ergebnis: Mentale Vorstellung wirkt!

    Angenommen die Studie setzt sich aus Leuten mit Merkmal X und ohne Merkmal X zusammen, so wäre das Ergebnis (bei wiederholter Durchführung): Mal wirkt mentale Vorstellung, mal nicht. – Deshalb sind Psychologen daran interessiert, Störvariablen zu kontrollieren und die Experimentalgruppe und die Kontrollgruppe möglichst homogen zu halten. Beide Gruppen sollen sich wenn möglich nur hinsichtlich des Treatments voneinander unterscheiden, um so die Wirkung des Treatments (in diesem Fall “mentale Vorstellungsübungen”) möglichst in Reinform zu erfassen. Dahinter steht die Erkenntnis, dass Menschen sich eh wahnsinnig stark voneinander unterscheiden und es deshalb wahrscheinlich ist, dass es viele unbekannte Einflussfaktoren gibt, die den interessierenden Einflussfaktor in seiner Wirkung beeinflussen.

    Eingang in die Wissenschaft würde vermutlich als neues Wissen nur das Ergebnis aus der Studie finden, bei denen der gesuchte Einflussfaktor Wirkung zeigt. Die Gefahr durch die Verwendung von Studenten als Sampling besteht also bei derartigen Fragestellungen eher darin, in der sonstigen Menschheit existierende und wirkende Einflussfaktoren NICHT zu finden, sie also zu übersehen.

    Ansonsten existiert nur die Gefahr, dass man bei Studenten gefundene Einflussfaktoren in ihrer allgemeinen Wirkung überschätzt. Aber es ging bei der Fragestellung ja vor allem darum zu untersuchen, ob es überhaupt diesen Einflussfaktor gibt. Ergeben weitere Experimente, dass die Wirkung des Einflussfaktors bei anderen Menschen systematisch weniger stark wirksam ist, so wäre jeder Psychologe wohl interessiert daran, dahinter zu kommen, was genau die Wirkung des GEFUNDENEN Einflussfaktors begrenzt, denn das würde die Entdeckung weiterer Einflussfaktoren versprechen.

    Man kann in der Psychologie Einflussfaktoren nur aufspüren, wenn man ahnt, dass es sie gibt. Denn nur so kann man ihre Existenz vor einem Experiment hypothetisch postulieren, um dann in einem Experiment die Tragfähigkeit dieser Hypothese zu testen. Man kann also beispielsweise nicht durch die Einbeziehung möglichst unterschiedlicher Menschen in einem Experiment zuvor unbekannte Einflussfaktoren aufspüren. Heterogene Samplings wirken hier nur wie ein Rauschen, aus dem man nichts heraushören kann.

  14. #14 Karl Mistelberger
    26. Oktober 2010

    Die Auswahl der Probanden ist nicht das einzige Problem:

    There is increasing concern that most current published research findings are false. The probability that a research claim is true may depend on study power and bias, the number of other studies on the same question, and, importantly, the ratio of true to no relationships among the relationships probed in each scientific field. In this framework, a research finding is less likely to be true when the studies conducted in a field are smaller; when effect sizes are smaller; when there is a greater number and lesser preselection of tested relationships; where there is greater flexibility in designs, definitions, outcomes, and analytical modes; when there is greater financial and other interest and prejudice; and when more teams are involved in a scientific field in chase of statistical significance. Simulations show that for most study designs and settings, it is more likely for a research claim to be false than true. Moreover, for many current scientific fields, claimed research findings may often be simply accurate measures of the prevailing bias. In this essay, I discuss the implications of these problems for the conduct and interpretation of research.

    Why Most Published Research Findings Are False

  15. #15 Hannes Bongard
    26. Oktober 2010

    „[…] Aus diesem Grund wählten die Wissenschaftler für ihre Studie zwei Datenbanken, in denen Informationen über insgesamt mehr als 15.000 Menschen zusammengetragen waren. Dabei handelte es sich um 4321 Männer mittleren Alters, die am Vietnamkrieg teilgenommen hatten und von denen Intelligenzquotient, Geburtstag und ein Persönlichkeitsprofil bekannt waren, sowie um 11.448 Jugendliche im Alter zwischen 15 und 24 Jahren, von denen Geburtsmonat und Intelligenz erfasst wurden. […]“

    https://www.wissenschaft.de/wissenschaft/news/264515.html

  16. #16 knackbock
    26. Oktober 2010

    Ein sehr spannendes Thema… insbesondere die Daten zur Müller-Lyer-Illusion haben mich auch sehr überrascht.
    Vielleicht sollte man nochmal betonen, dass nicht nur die Psychologie betroffen ist. Die Autoren sprechen ja auch von “[…]cognitive science, and economics, as well as
    allied fields (hereafter collectively labeled the “behavioral
    sciences”)”.

    @JV Auf über 70 Seiten kommt man evtl. weil im pdf z.T. Kommentare/Antworten mit drin stehen

  17. #17 Christian Reinboth
    26. Oktober 2010

    @Hannes Bongard:

    Bei einer Untersuchung zur Astrologie dürfte die Repräsentativität in der Tat weniger wichtig sein – wenn man davon ausgeht, dass astrologische Prognosen eine universelle Gültigkeit besitzen, müsste man ja theoretisch bei einer x-beliebigen Stichprobe (wie immer zustandegekommen) problemlos Effekte nachweisen können…

  18. #18 Kish
    26. Oktober 2010

    Wo kann ich den Hirnfrosch kaufen/bestellen? Der ist echt nice 🙂

  19. #20 Christian Reinboth
    26. Oktober 2010

    @Lucomo: Vielen Dank für den umfangreichen Kommentar – mal sehen, ob ich eine brauchbare Replik zustande bekomme…

    Angenommen Merkmal X kommt bei Studenten nicht vor, so wäre das
    Ergebnis der Studie: Mentale Vorstellung wirkt nicht oder nur wenig. Angenommen Merkmal X kommt bei Studenten gehäuft vor, so wäre das Ergebnis: Mentale Vorstellung wirkt!

    Das Beispiel kann ich voll und ganz nachvollziehen und verstehe natürlich auch, dass psychologische Studien gar keine Bevölkerungsrepräsentativität anstreben und eine solche im Grunde auch gar nicht benötigen. Aufgrund der Tendenz, dass eher positive als negative Ergebnisse veröffentlicht werden, ist doch aber anzunehmen, dass die Chance einer Veröffentlichung im Beispiel a geringer wäre als im Beispiel b, d.h. wenn ein begünstigender Faktor existiert, der bei Studenten so gut wie nicht vorkommt, ist es wahrscheinlich, dass der Untersuchende zu dem Ergebnis gelangt, dass mentale Vorstellung nicht oder nur wenig wirkt. Wird dieses Resultat irgendwo veröffentlicht, ist die Vorstellung von der Wirksamkeit der mentalen Vorstellung in meinen Augen schon “verbrannt”, da ein Kollege kaum ein Interesse daran haben kann, einen bereits als nicht signifikant erfassten Effekt erneut zu untersuchen und Gefahr zu laufen, am Ende mit hoher Wahrscheinlichkeit mit einem schwer publizierbaren Negativ-Ergebnis ohne Neuerungswert dazustehen – ein Ergebnis, das ja in dieser Konstellation sogar sehr wahrscheinlich wäre, wenn wieder Studenten als Probanden angeworben werden. Im Endergebnis wird der vermutete Effekt beerdigt, auch wenn er in Populationen außerhalb der “Studentengemeinde” hochsignifikant sein könnte.

    Tritt der andere Fall ein, in dem ein begünstigender Faktor bei Studierenden vermehrt vorkommt, kommt der Forscher dagegen möglicherweise zu der unrichtigen Annahme, der Effekt spiele sogar eine große Rolle, auch wenn dies in anderen Populationen dezidiert nicht der Fall ist. Durch Versuche anderer Wissenschaftler und subsequente Publikationen wird der Effekt dann immer wieder und wieder bestätigt, wenn man das Muster der rein studentischen Probandengruppen einhält, bis es dann irgendwann als etabliert gilt, dass der Effekt existiert und eine gewisse Bedeutung hat.

    Wie Du schon schreibst: Es besteht die Gefahr, dass (a) für die Gesamtbevölkerung durchaus relevante Effekte nicht aufgedeckt werden, weil man sie in studentischen Gruppen nicht oder nur in geringem Maß findet sowie (b) für die Gesamtbevölkerung eher wenig relevante Effekte vermehrt untersucht und bis zur Etablierung bestätigt werden, da sie in studentischen Gruppen verstärkt zu beobachten sind. Das halte ich – bei aller Hochachtung für die psychologische Forschung – doch für zwei erhebliche Probleme. Die im Paper geäußerte Kritik bedeutet ja nicht, dass alle Ergebnisse, die man aus studentischen Gruppen gewinnt, falsch oder verzerrt sind – das ist in der Tat kaum zu vermuten. Die Frage, ob schon längst abgeschriebene Zusammenhänge und Effekte nicht doch von Interesse sein könnten bzw. ob mehrfach bestätigte Effekte außerhalb der Probandenpopulation vielleicht von geringer Bedeutung sind, muss doch aber trotzdem gestellt werden.

    Im Grunde müsste es doch ein Procedere geben, das bei mehrfacher Bestätigung bestimmter Ergebnisse in der universitären Forschung verlangt, dass die gefundenen Effekte oder Zusammenhänge an einem zumindest bevölkerungsrepräsentativen Sample erneut untersucht werden (auch wenn damit das eigentliche WEIRD-Problem ja noch nicht mal aus der Welt geschafft wäre). Ich kann mir gar nicht vorstellen, dass es so etwas nicht gibt – werden nicht wichtige Erkenntnisse irgendwann auch automatisch an breiter gefächerten Gruppen getestet?

  20. #21 Lucomo
    26. Oktober 2010

    @Christian Reinboth: Ich wollte mit meiner Darstellung keineswegs die Probleme kleinreden. Insofern kann ich deiner Antwort auf meinen Kommentar insgesamt voll zustimmen.

    Es ist wohl so, dass man bisher annahm, dass vor allem Untersuchungen zur Kognition kaum durch kulturelle Faktoren verfälscht werden. Die Theorien auf diesem Gebiet gehen/gingen halt bislang davon aus, dass die Art der Kognition (z.B. Entscheidungsverhalten, Wahrnehmung, Motivation, Emotion) vor allem stark von der Physiologie des Gehirns bestimmt werden. Und da der Aufbau des Gehirns im Wesentlichen bei allen Menschen gleich ist, kam man bislang wohl kaum auf die Idee, kulturelle Faktoren stärker zu berücksichtigen.

    Zu beachten wäre noch: Für Psychologen gäbe es dann natürlich nicht DEN einen kulturellen Faktor, sondern was dieser kulturelle Einfluss genau ist, müsste dann sehr kleinteilig operationalisiert werden. Kultur ist ja nur eine “Trägervariable”. Ähnlich wie z.B. das “Alter” eines Menschen. Nicht Kultur und Alter an sich haben Einfluss auf das Erleben und Verhalten von Menschen, sondern Dinge, die mit diesen Trägervariablen verbunden sind. Nicht das Alter macht ja z.B. gesundheitliche Probleme, sondern z.B. biologische Prozesse, die mit dem Alter korrelieren. Man würde also den kulturellen Einfluss wiederum als mehrere Einflussfaktoren untersuchen und/oder gezielt bestimmte Variablen des kulturellen Einflusses testen müssen.

    Aber wie gesagt: Dazu müsste man bei dem von mir in meinem ersten Kommentar oben geschilderten Versuchsdesign (Testen von Einflussfaktoren) zunächst ganz konkrete Hypothesen aufstellen, welche Merkmale von Menschen aus anderen Kulturkreisen eventuell in welcher Art und Weise einen Einfluss haben könnten auf das Verhalten und Erleben. Erst dann kann man einen Versuchsaufbau konstruieren, bei dem man den kulturellen Einfluss adäquat berücksichtigen und erforschen kann.

    An diese möglichen konkreten Einflussfaktoren müsste man sich erst durch explorative Untersuchungen heranarbeiten.

    Ich sehe also nicht so sehr ein Problem der Untersuchungsmethode, sondern eher ein Problem des Theorienstandes.

    Für dezidierte, ganz konkrete Fragestellungen kann die Psychologie mittlerweile sicherlich interessante Antworten liefern und viele dieser Antworten bleiben auch dann interessant und wahr, wenn sie nicht für alle Kulturkreise gleichermaßen gelten. So sind Ergebnisse z.B. zu Fragen zur Arbeitsmotivation oder zu Arbeitsbedingungen oder Fragen zur Wirksamkeit von Therapieansätzen oder Fragen zur Vorurteilsforschung etc. ja nicht plötzlich wertlos, weil sie in Papua-Neuguinea nicht in dem Maße gelten.

    Mit großen Antworten zur allgemeinen Natur des Menschen waren Psychologen eigentlich bisher auch schon sehr vorsichtig. Die Vorstellung, Psychologen könnten Menschen “durchschauen” ist ja eher eine Besorgnis von Laien. 😉

  21. #22 miesepeter3
    27. Oktober 2010

    Wenn ich nur Marmor zur Verfügung habe, kann ich auch nur Marmor testen. Wenn ich das sage ist ja alles ok. Will ich aber die Ergebnisse auch auf Granit anwenden, beiße ich wahrscheinlich auf denselben.
    Wissenschaft ist ja sooo ungerecht.

  22. #23 jitpleecheep
    28. Oktober 2010

    @Lucomo:
    “Die Theorien auf diesem Gebiet gehen/gingen halt bislang davon aus, dass die Art der Kognition (z.B. Entscheidungsverhalten, Wahrnehmung, Motivation, Emotion) vor allem stark von der Physiologie des Gehirns bestimmt werden. Und da der Aufbau des Gehirns im Wesentlichen bei allen Menschen gleich ist, kam man bislang wohl kaum auf die Idee, kulturelle Faktoren stärker zu berücksichtigen.”

    Also bezüglich Entscheidungsverhalten (= Entscheidung zur Meinungsäusserung) kann ich dir aus persönlicher Erfahrung (und das ist unter Psychologen absolut nicht unbekannt, wenn mich nicht alles täuscht hat Hugh Coolican da sogar ein ganzes Kapitel drüber in “Research Methods and Statistics in Psychology”) versichern, dass es ganz erhebliche kulturelle Unterschiede bezüglich Entscheidungsverhalten in Tests gibt: In Qualitätstests sind z.B. Asiaten [1] schlicht nicht in der Lage, die Testskala auszureizen. Auf der Standard ITU 5-Punkt Impairment Skala [2] kann man wirklich froh sein, wenn die irgendwas ausserhalb 4.5-3.5 bewerten. Auf der anderen Seite liegen (natürlich ausgerechnet) die Deutschen, die quasi dafür berüchtigt sind die Skala auf’s extremste auszureizen.

    Was Wahrnehmung und Emotionen angeht, hat kein Deutscher (hüstel… Studierender…, aber hey: da waren Nicht- und Musiker_innen und alles dazwischen dabei) damit ein Problem, Dur- und Moll-Akkorde mit Begriffen zu versehen, die sich auf ‘fröhlich’ und ‘traurig’ reduzieren lassen. Dem widerspricht aber (z.B.) die osteuropäische Musik, die keinerlei Probleme hat, komplett aus Moll-Harmonien absolut fröhliche und ‘schmissige’ Songs zu basteln.

    Letztlich (okay, ich präsentiere hier ein Viertel-Halbwissen, das mir aus irgendwelchen Vorlesungen, die vor Äonen stattgefunden haben, hängen geblieben ist): Ist es nicht so, dass schon relativ lange bekannt ist, dass eine zweidimensionale Repräsentation (lies: Zeichnung) eines Würfels nicht als dreidimensional wahrnehmen, und das andere wiederum Videoaufnahmen ihrer selbst schlicht nicht verstehen (soweit ich mich erinnere wurde das so beschrieben, dass sie wohl nur zusammenhanglose farbige Flächen sehen)?

    Meines Erachtens liegt also diesem Scheuklappenblick nicht die Tatsache zugrunde, dass Psychologen nicht über die Unterschiede Bescheid wüssten, sondern das schlicht und einfach der Großteil der Forschung in (sozusagen) WASP- und WEIRD-Kulturen stattfindet [3]. Das führt zu einem Wahrnehmungsbias (vor allem in den Medien), was wiederum zu einem Forschungsbias führt…

    [1] Meine persönlichen Erfahrungen beziehen sich konkret auf Tests aus Japan, China und (Süd-)Korea. Coolican spricht meiner Erinerung nach von China oder dem ‘asiatischen Kulturraum’ allgemein. Ich hoffe der Pauschalbegriff ‘Asiaten’ ist im Zusammenhang mit Kulturen irgendwie akzeptabel…
    [2] https://www.irisa.fr/armor/lesmembres/Mohamed/Thesis/node145.html
    [3] Beziehungsweise gibt es Fachrichtungen, da gibt es Forschung sonstwo aber das kann halt keiner lesen: eine Bekannte von mir arbeitet in der Lichttechnik (ein ziemlich kleines und autarkes Gebiet), und laut der gibt es keinerlei wirklich internationale Konferenzen. Das heisst, dass das, was z.B. die Japaner so treiben, völlig unbekannt ist, weil es ausschließlich auf japanisch veröffentlicht wird. Meh.

  23. #24 Threepoints...
    1. November 2010

    Also wird in solchen Studien nur eine “qualitative Vorstudie” erstellt, welche dann als quasi-Standasrt für den Deppen auf der Strasse herhält, den man dann erklären kann, er sei abnorm….

  24. #25 Hannes Bongard
    13. November 2010

    @Christian Reinboth:

    Es ging bei der Untersuchung nicht um astrologische Prognosen.

  25. #26 BreitSide
    13. November 2010

    Es ging nicht um Astrologie, sondern um Wissenschaft.

  26. #27 Hannes Bongard
    14. November 2010

    Es gibt keinen schlimmeren Blinden als den, der nicht sehen will.

  27. #28 BreitSide
    14. November 2010

    Es gibt einen Schlimmeren: den Astrologen.

  28. #29 Hannes Bongard
    14. November 2010

    „[…] Aus diesem Grund wählten die Wissenschaftler für ihre Studie zwei Datenbanken, in denen Informationen über insgesamt mehr als 15.000 Menschen zusammengetragen waren. Dabei handelte es sich um 4321 Männer mittleren Alters, die am Vietnamkrieg teilgenommen hatten und von denen Intelligenzquotient, Geburtstag und ein Persönlichkeitsprofil bekannt waren, sowie um 11.448 Jugendliche im Alter zwischen 15 und 24 Jahren, von denen Geburtsmonat und Intelligenz erfasst wurden. […]“
    https://www.wissenschaft.de/wissenschaft/news/264515.html

  29. #30 Christian A.
    14. November 2010

    Herr Bongard, ich gehe davon aus, dass Sie schon mehrfach darauf hingewiesen worden sind, dass Zitate ohne eignen Kommentar zu Posten nicht viel bringt. Sie sollten davon ausgehen, dass die anderen Leser und Kommentatoren hier ihren Text nicht mit den gleichen Augen lesen wie Sie, so dass der Punkt, der ihnen ins Auge springen mag, den anderen Lesern völlig entgeht.
    Ich sehe da z.B. das Wort “Wissenschaftler” gefettet im Unterschied zu Ihrem früheren Post, aber was Sie mir sagen wollen erschließt sich auch dadurch nicht.

  30. #31 Hannes Bongard
    14. November 2010

    Eben.

  31. #32 BreitSide
    14. November 2010

    Langsam verstehe ich, was Kommentatoren vor mir als “Bongarden” bezeichnet haben.

  32. #33 Christian A.
    14. November 2010

    Herr Bongard, was wollen Sie denn nun mit dem Zitat zum Ausdruck bringen?

  33. #34 Hannes Bongard
    15. November 2010

    Gefettete “Wissenschaftler”?