Im kommenden Semester werde ich nach längerer Zeit endlich wieder das Vergnügen haben, einen Statistik-Grundlagenkurs an der Hochschule Harz zu unterrichten. Eine der Grundregeln, die ich Studierenden in solchen Veranstaltungen immer mit ganz besonderem Nachdruck zu vermitteln versuche, lautet, dass nicht jede Erhebung “repräsentativ” und nicht jedes Ergebnis “signifikant” sein muss – auch wenn der Erwartungsdruck durch Kunden oder Kollegen einen möglicherweise zur unbedachten Verwendung dieser Adjektive verleiten könnte.

Ein passendes Beispiel liefert uns heute die Harzer Volksstimme, die unter der Überschrift “Uni-Absolventen auf dem Sprung” über eine im Auftrag der Zeitarbeitsagentur STUDITEMPS durchgeführte Erhebung unter Studierenden berichtet, welche zu dem Ergebnis gelangt, dass kein Bundesland auf Hochschulabsolventen unattraktiver wirke als Sachsen-Anhalt:

Deutschlandweit haben Experten der Universität Maastricht Studenten gefragt, in welchem Bundesland sie gern arbeiten würden. Auftraggeber war die Kölner Zeitarbeitsfirma Studitemps. Das Ergebnis: Auf die größte Akademikerabwanderung muss sich Sachsen-Anhalt einstellen. Zu- und Wegzugswünsche ergeben unter dem Strich ein Minus von 70 Prozent. „Darüber müssen sich die Wirtschaft, das Land und die Kommunen dringend Gedanken machen“, mahnt Studitemps-Sprecher Stephan Hartmann. 25.000 Studenten haben sich nach Studitemps-Angaben an der Befragung beteiligt – „das ist repräsentativ“, betont Hartmann. Allerdings: Vorgesetzt bekamen den Online-Fragebogen ausschließlich jene, die bei Studitemps angemeldet sind, die also nach einem Job suchen oder einmal gesucht haben.

Während die Ergebnisse dieser Erhebung für sich genommen – verstanden als mit großem Aufwand und hohen Fallzahlen betriebene qualitative Vorstudie – sicher durchaus interessant sind, stellen sich mir angesichts der Verwendung des Wortes “repräsentativ” hier leider die Nackenhaare auf. Auf das größte Problem weist Volksstimme-Redakteur Hagen Eichler dankenswerterweise gleich selbst hin:

  • Nur Studierende, die auf dem Online-Portal von STUDITEMPS – einer Agentur zur Vermittlung von Studierenden in Zeitarbeit – registriert sind, konnten überhaupt an der Erhebung teilnehmen. Studierende, die keinen Bedarf (genug klassische Studentenjobs, ausreichende finanzielle Mittel etc.) oder kein Interesse an Zeitarbeit haben, fallen also ebenso aus wie Studierende, denen das Portal gar nicht bekannt ist oder die sich aus Gründen des Datenschutzes oder eigener Überzeugungen (Zeitarbeit) nicht registrieren würden. Auch alle Studierenden, die sich generell nicht für Online-Jobportale interessieren (etwa weil sie sich nach dem Abschluss selbständig machen wollen, im Unternehmen der Eltern einsteigen oder eine Karriere im öffentlichen Dienst anstreben), werden kaum bei STUDITEMPS registriert sein. Vor diesem Hintergrund wirkt die Annahme, dass die verbleibende Subgruppe der potentiellen STUDITEMPS-Nutzer – und innerhalb derer wiederum die Subgruppe der tatsächlichen Nutzer – im Hinblick auf Karriereziele und Mobilität auch nur näherungsweise repräsentativ für die Gesamtheit aller deutschen Studierenden stehen könnte, bei näherer Betrachtung mehr als abenteuerlich.

Der Blick auf die STUDITEMPS-Webseite offenbart jedoch noch mehrere weitere Probleme:

Studitemps

  • Bei STUDITEMPS sind offenbar rund 300.000 Studierende registriert, von denen wiederum 25.000 (8,3%) befragt wurden – eine für eine Erhebung per Zufallsstichprobe auffallend hohe Zahl. Legt man an dieser Stelle die Cochran-Formel mit üblichen Schätz- und Genauigkeitswerten zugrunde, hätte eine Stichprobe von 1065 Studierenden bei dieser Grundgesamtheit schon für eine repräsentative Aussage (über Karriereziele und Mobilität der STUDITEMPS-Nutzer, nicht der Studierendenschaft insgesamt) ausgereicht. Der Umstand, dass weit mehr Studierende befragt worden, lässt vermuten, dass der Erhebung gar keine Zufallsauswahl zugrunde lag, sondern vielmehr alle registrierten Nutzer zur Teilnahme aufgefordert wurden. Zur ersten Stufe der Selbstselektion (Wer meldet sich bei STUDITEMPS an?) käme somit noch eine zweite Stufe (Wer meldet sich für die Befragung?) hinzu, die es wahrscheinlich erscheinen lässt, dass die Ergebnisse nicht einmal für die Grundgesamtheit der STUDITEMPS-Nutzer repräsentativ sind.
  • Die bei STUDITEMPS registrierten Nutzer stammen aus 140 Studiengängen – das Portal studieren.de erfasst aber alleine in Deutschland fast 7.300 angebotene Studiengänge. Selbst wenn man davon ausgeht, dass diese sich erheblich verdichten lassen (etwa indem man Studiengänge wie “Accounting and Finance”, “Accounting and Taxation” und “Accounting and Controlling” zusammenführt), so ist doch offensichtlich, dass hier nicht alle Studienrichtungen in gleichem Maße abgebildet sein dürften und insofern keine Strukturidentität zwischen der Grundgesamtheit aller Studierenden und der Subgruppe der STUDITEMPS-Nutzer zu erwarten ist. Insbesondere geisteswissenschaftliche Studienrichtungen sowie solche, die auf eine Beschäftigung im öffentlichen Dienst abzielen, dürften unterrepräsentiert sein – was bei einer Zeitarbeits-Agentur für Studentenjobs auch durchaus zu erwarten ist und insofern den – qualitativen – Erkenntnisgewinn einer entsprechenden Befragung nicht schmälert.
  • Auch auf das Argument, die Erhebung sei schon aufgrund der hohen Zahl an Probanden – immerhin 25.000 – repräsentativ, soll an dieser Stelle noch kurz eingegangen werden. Tatsächlich wäre eine Zufallsauswahl von 25.000 Personen für die Grundgesamtheit der 300.000 STUDITEMPS-Nutzer mit Sicherheit repräsentativ – und auch für repräsentative Aussagen über die Studierendenschaft insgesamt wäre die Probandenzahl – wiederum nach Cochran geschätzt – groß genug. Die Betonung liegt aber in beiden Fällen auf der Zufallsauswahl, die hier offensichtlich nicht vorliegt (Studierendenschaft) bzw. nicht zu vermuten ist (Nutzerschaft). Dem Gesetz der großen Zahl folgend, wird fälschlicherweise häufig davon ausgegangen, dass eine sehr große Zahl an Teilnehmern – insbesondere bei Online-Befragungen – geradezu ein Garant für die Aussagekraft der Ergebnisse ist. Dies ist jedoch nur dann der Fall, wenn eine saubere Definition der Grundgesamtheit sowie eine echte Zufallsauswahl durchgeführt wurden – liegt einer Erhebung dagegen ein selbstselektives Verfahren zugrunde, kann eine werbewirksam hohe Teilnehmerzahl vielmehr zu schwersten Fehlschlüssen führen – ein Effekt, der in der Wahlforschung bereits seit dem “Literary Digest Desaster” von 1936 bestenes bekannt ist.

Ganz grundsätzlich – und völlig losgelöst vom STUDITEMPS-Beispiel – ist festzustellen, dass die schleichende Erosion der Bedeutung von Begriffen wie “repräsentativ” und “signifikant” die Ergebnisqualität in der Markt- und Meinungsforschung meiner Auffassung nach bereits erkennbar beschädigt hat und ständig weiter schädigt. Markt- und Meinungsforscher sollten wieder lernen, sich dem Zwang zu wiedersetzen, die Label “repräsentativ” oder “signifikant” unabhängig von der Erfüllung der eigentlichen methodischen sowie auch mathematischen Voraussetzungen überall draufzupappen, weil Ergebnisse ohne diese Label schon gar nicht mehr ernst genommen oder gar als fehlerhaft betrachtet werden. Mit diesem Verhalten wertet man nicht nur den reichhaltigen Methodenkoffer der qualitativen Forschung ab, die auch ohne Repräsentativität oder Signifikanz wertvolle Ergebnisse erbringen kann, sondern man sorgt auch für eine ständige Konfusion pseudo-repräsentativer und pseudo-signifikanter Ergebnisse mit tatsächlich repräsentativen und signifikanten Ergebnissen und trägt somit letztendlich dazu bei, dass die Begriffe außerhalb der Wissenschaft irgendwann gar keine Bedeutung und gar keine Aussagekraft mehr besitzen.

In diesem Sinne: Don’t do it! Und danke an alle Medienvertreter, die solche Aussagen nicht unkommentiert übernehmen (wie es mit der aktuellen STUDITEMPS-Erhebung sicher wieder viele Presseorgane tun werden).

Update: Die Berliner Zeitung (BZ) berichtete schon vor drei Wochen über die Umfrage, ohne dabei die Repräsentativität der Ergebnisse zu hinterfragen. Aus dem BZ-Artikel geht allerdings deutlich hervor, dass – wie oben bereits vermutet – alle 300.000 STUDITEMPS-Mitglieder zur Teilnahme an der Erhebung aufgefordert wurden. Da mit 25.000 nur rund 8% diesem Aufruf folgten, liegt anstelle einer Zufallsstichprobe also dem Anschein nach eine (angesichts der Rücklaufquote mehr oder minder gescheiterte) Vollerhebung mit hoher Selbstselektivität vor.

Kommentare (21)

  1. #1 WolfgangM
    9. Februar 2016

    @ Christian

    und nicht jede Korrelation belegt die Ursächlichkeit.
    Dass die Zahl der Störche mit der Geburtenzahl korreliert ist ja bekannt; ebenso die abnehmende Zahl der Piraten auf den Weltmeeren mit der Klimaerwärmung. hochsignifikant korreliert auch die Zahl der Autismus Fälle in USA mit dem Anstieg des Verkaufs biologischer Lebensmittel.
    Und dann hab ich noch eine Menge von interessanten Korrelationen gefunden. Die Zahl der Scheidungen in Maine korreliert mit dem Margarine Verzehr- also hast ein Beziehungsproblem- zur Lösung einfach Margarine essen.
    Hab ich von dieser netten Seite

    https://tylervigen.com/spurious-correlations

  2. #2 Christian Reinboth
    9. Februar 2016

    @WolfgangM: Genau so sieht es aus. Die Webseite von Tyler Vigen habe ich in Vorlesungen schon mehrfach empfohlen – die dort aufgeführten Korrelationen machen besser als jedes Lehrbuch deutlich, wie unsinnig es ist, immer gleich auf Zusammenhänge schließen zu wollen.

  3. #3 Peter
    9. Februar 2016

    Mir fällt in Gesprächen mit Stistik-Laien auf, dass insbesondere Signifikanz völlig missverstanden wird, nämlich nur im bildungssprachlichen Wortsinn “Bedeutung”. Ich konnte auch schon Artikel lesen, in denen es der Journalist besonders gut mit seinen Lesern meinte und den Begriff übersetzt hat – und so wird aus einem signifikanten Unterschied ein bedeutender …

  4. #4 Peter
    9. Februar 2016

    @#1: gibts so was ähnliches auch in Deutsch? Leute, die Probleme haben, statistische Grundbegriffe zu verstehen, tun sich oft auch schwer mit Englisch. Ähm … statistisch nicht belegt, subjektiver Eindruck meinerseits 🙂

  5. #5 rolak
    9. Februar 2016

    Schön aufgedröselt, Christian – und die Betroffenen waren so sauer, daß sie Dir prompt ein ‘t’ geklaut haben. Einsetzen und es ihnen entgegnen: “Don’ do it!”

  6. #6 inga
    9. Februar 2016

    @Christian: Zu Deinem ersten Punkt muss ich leider widersprechen. Nehmen wir jetzt das Problem der Repräsentativität auf die Gesamtheit der Studierenden raus, definieren somit die Grundgesamtheit als “alle angemeldeten Nutzer”. Dann entspricht die Vermutung, dass alle registrierten Studierenden zur Teilnahme aufgefordert wurden einer Vollerhebung (mit einem Non-Response von 91,7%). Eine Vollerhebung ist bzgl. Repräsentativität immer besser als eine Stichprobe, bei einem vollem Response, also wenn tatsächlich alle antworten, würden die Antworten ein Abbild der Wirklichkeit 1:1 reflektieren (sofern niemand lügt). Das Problem ist also eher die hohe Non-Respons-Quote, die aber bei einer repräsentativen Stichprobe logischerweise genauso hoch wäre wie bei der Vollerhebung (sonst wäre die Stichprobe ja nicht repräsentativ).

  7. #7 Christian Reinboth
    9. Februar 2016

    @ rolak: Danke für den Hinweis, ist korrigiert.

  8. #8 inga
    9. Februar 2016

    Ah, ich sehe, Du hast das in Deinem Nachtrag ja schon erwähnt. Mir war es aber wichtig darauf hinzuweisen, dass das nicht an der Größe der Stichprobe liegt.
    Ergänzung: Der Vorteil bei einer kleineren Stichprobe statt Vollerhebung wäre allerdings, dass man bei geringerer Fallzahl besser nachhaken könnte, sprich z.B. klassisch hinterhertelefonieren. Bei 300000 Leuten wäre das natürlich utopisch. Somit könnte man den Response verbessern und validere Ergebnisse erzielen.

  9. #9 Christian Reinboth
    9. Februar 2016

    @inga: Ist vielleicht missverständlich formuliert: Natürlich wäre eine echte Vollerhebung viel besser als eine Stichprobe (wenn auch nicht repräsentativ, da sich die Grundfrage der Repräsentativität – Sind die Ergebnisse einer kleineren Gruppe auf eine größere Gruppe übertragbar? – bei einer Vollerhebung ja gar nicht stellt und auch nicht gestellt werden muss). Eine selbstselektive Vollerhebung wie im vorliegenden Fall, an der letztendlich nur ein sehr geringer Teil der Nutzer/innen teilgenommen hat (8,3% – siehe auch das Update unter dem Artikel) ist allerdings allenfalls eine gescheiterte Vollerhebung und damit – zumindest meinem Verständnis nach – deutlich weniger aussagefähig, als es eine Zufallsstichprobe bei einer einigermaßen guten Rücklaufquote gewesen wäre. Es ist sicher nicht davon auszugehen, dass die übrigen 91,7% strukturell identisch geantwortet hätten, hätte man sie zur Teilnahme verpflichten können. Als ich den Artikel geschrieben habe, bin ich im übrigen tatsächlich noch von einer Stichprobe ausgegangen (da ja auch von Repräsentativität die Rede war) – erst der im Update verlinkte Artikel der BZ zeigt ja, dass wir hier im Grunde von einer gescheiterten Vollerhebung sprechen müssen – deren Aussagekraft wir ja offenbar ähnlich beurteilen.

    Zur Frage, ob eine Stichprobe, wäre sie denn repräsentativ, nicht automatisch die gleiche Non-Response-Quote aufweisen müsste: Das ist sicher richtig gedacht, allerdings lassen sich die üblichen Möglichkeiten zur Steigerung der Rücklaufquote (Incentivierung, Nachfassen etc.) bei einer Stichprobe natürlich einfacher und zu viel geringeren Kosten durchexerzieren, als bei einer Vollerhebung. Darüber hinaus weiß man, dass eine allgemeine Aufforderung zur Teilnahme, die sich einen großen Personenkreis richtet, oft nicht so aktivierend wirkt, wie eine individualisierte Teilnahmeaufforderung im Rahmen einer Stichprobenziehung. Der Anteil an verzerrenden Teilnehmern mit extremen Ansichten (alles super, alles furchtbar) ist bei allgemeinen Ansprachen oft überdurchschnittlich hoch, da diese Leute in besonderem Maße dazu motiviert sind, sich an Erhebungen zu beteiligen. Natürlich beteiligen die sich auch an einer Stichprobenerhebung – da sie aber nicht alle gezogen werden, verringert sich doch zumindest die dadurch hervorgerufene Verzerrung.

  10. #10 Christian Reinboth
    9. Februar 2016

    @inga: Jetzt haben wir offenbar gleichzeitig das Gleiche geschrieben – nur einmal kurz und prägnant und einmal langatmig und ausschweifend. 🙂

  11. #11 inga
    9. Februar 2016

    @Christian 🙂
    Ich sehe, wir sind uns einig und gebe zu, dass ich ein bisschen pingelich bin, wenn ich trotzdem nochmal hierauf eingehe: “Der Umstand, dass weit mehr Studierende befragt worden, lässt vermuten, dass der Erhebung gar keine Zufallsauswahl zugrunde lag, sondern vielmehr alle registrierten Nutzer zur Teilnahme aufgefordert wurden.” Dies suggeriert, dass eine Zufallsauswahl besser wäre als eine Vollerhebung, und das ist ceteris paribus eben nicht korrekt.

  12. #12 Christian Reinboth
    9. Februar 2016

    @inga: Ich will nicht haarspalten, aber der Satz “Der Umstand, dass weit mehr Studierende befragt worden, lässt vermuten, dass der Erhebung gar keine Zufallsauswahl zugrunde lag, sondern vielmehr alle registrierten Nutzer zur Teilnahme aufgefordert wurden.” soll natürlich wirklich nicht implizieren, dass eine Zufallsauswahl einer Vollerhebung überlegen gewesen wäre, sondern lediglich, dass es für mich so aussieht, als ob man eben keine Zufallsauswahl, sondern vielmehr eine Vollerhebung durchgeführt hätte bzw. hätte durchführen wollen. Die dann aufgrund einer sehr niedrigen Rücklaufquote leider nicht besonders aussagekräftig ausgefallen ist – aber das ist ja dann schon wieder ein anderer Aspekt…

    Im Grunde besteht zwischen uns ja aber Einigkeit: Eine Zufallsstichprobe wäre bei gutem Rücklauf aussagekräftig gewesen, eine Vollerhebung wäre bei optimalem Rücklauf sogar noch aussagekräftiger gewesen – so wie die Erhebung gelaufen ist (keine Zufallsauswahl, 8,5% Rücklauf in der Vollerhebung) ist aber leider keins von beiden Szenarien eingetreten.

  13. #13 Christian Reinboth
    9. Februar 2016

    Pingeligkeit ist für Statistiker/innen übrigens eine positive Charaktereigenschaft – nicht dass das noch falsch verstanden wird. Wir brauchen viel mehr Pingeligkeit in der Markt- und Meinungsforschung. 🙂

  14. #14 inga
    9. Februar 2016

    Ohhh, ich kann’s nicht lassen, da muss ich doch noch mal antworten…
    Einigen wir uns darauf, dass “Eine Zufallsstichprobe wäre bei GUTEM Rücklauf aussagekräftig gewesen, eine Vollerhebung wäre bei GUTEM Rücklauf sogar noch aussagekräftiger gewesen.” Wenn alles andere gleich bleibt, ist eine Vollerhebung immer besser als eine Stichprobe (Vollerhebung i.S.v. die komplette Grundgesamtheit, hier alle Nutzer der Plattform, wird befragt, unabhängig von der Respons-Quote). Aber worauf Du, glaube ich, hinaus willst: Eine Stichprobe mit hohem Rücklauf kann aussagekräftiger sein als eine Vollerhebung mit schlechtem Rücklauf.

  15. #15 Christian Reinboth
    9. Februar 2016

    Klar – ceteris paribus. Man sollte in manchen Fällen wirklich Wörter wiederholen, auch wenn es sich beim Drüberlesen nicht gut anhört. 🙂

  16. #16 Christian Reinboth
    9. Februar 2016

    Wobei mir gerade auffällt, dass die Aussage streng betrachtet natürlich auch korrekt ist: Eine Vollerhebung ist bei optimalem Rücklauf aussagekräftiger als eine Stichprobe bei gutem Rücklauf, wenn man davon ausgeht, dass optimal > gut. Aber klar, gemeint war natürlich unter sonst gleichen Bedingungen. 😀

  17. #17 inga
    9. Februar 2016

    Fein, dann kann ich mich ja jetzt wieder meinem Bücherregal zuwenden. Die Buchrücken sind ja schon wieder total unregelmäßig, furchtbar. 😉

  18. #18 Tim
    10. Februar 2016

    Selbst wenn Befragungen repräsentativ sind, darf man ihre Ergebnisse keineswegs für realistisch halten. Menschen handeln mitunter völlig anders, als sie in Befragungen angeben. Erinnere mich z.B. noch sehr gut daran, als vor ein paar Jahren die Milchpreise sanken und 90 % der Konsumenten in Befragungen gelobten, liebend gern 1 Euro oder mehr für den Liter zahlen zu wollen. 🙂

  19. #19 Wilhelm Leonhard Schuster
    11. Februar 2016

    Das mit dem Milchpreis ist ein typisches Beispiel
    des “Schaffen” wollens und “Schaffen” könnens!

  20. #20 Dr. Webbaer
    11. Februar 2016

    Die sogenannte Repräsentativität ist ein heißes Eisen, denn sie muss einer Modellierung folgen, die jemand als repräsentativ einstuft.
    Sind Auftraggeber derartiger Untersuchungen im Wirtschaftlichen Tätige, sozusagen Stakeholder, wird es besonders spannend, wenn Repräsentanz festgestellt wird.
    Auch die statistische Signifikanz ist ein heißes Eisen, wenn das sogenannte Signifikanzniveau niedrig, bspw. bei 0,05 angesetzt wird.

    Insofern muss keine wissenschaftliche Arbeit, sondern es kann wissenschaftlich ummanteltes wirtschaftliches Handeln vorliegen.
    Aber stand ja alles im WebLog-Eintrag.

    “Medienschaffende” (um einmal im Duktus des hier kommentierten Textes zu bleiben, “Studierende” studieren nicht immer, vgl. auch mit “Studenten”, beides sind substantivierte PPA (Partizip Präsens Aktiv), es spricht nichts gegen “Studenten”) können insofern nur aufgeklärt werden, so dass sie sich möglichst wenig instrumentalisieren lassen.

    MFG
    Dr. Webbaer

  21. […] einigen Wochen hatte ich mich hier in einem Blog-Rant darüber beklagt, wie fahrlässig heutzutage in der Markt- und Meinungsforschung oft mit den Attributen […]