Nein, eine gescheiterte Vollerhebung mit 1% Rücklauf ist ganz sicher nicht “repräsentativ”

Von Christian Reinboth / 13. Mai 2016 / 8 Kommentare

(Copyright: Marc Nozell from Merrimack, New Hampshire, USA, Lizenz: CC BY 2.0, Quelle: Wikimedia)

Vor einigen Wochen hatte ich mich hier in einem Blog-Rant darüber beklagt, wie fahrlässig heutzutage in der Markt- und Meinungsforschung oft mit den Attributen “repräsentativ” und “signifikant” umgesprungen wird. Ein aktuelles und in vielerlei Hinsicht typisches Beispiel hierfür (sowie auch für den Trend zu selbstselektiven Online-Stichproben), ist mir dieser Tage bei der Suche nach Umfragebeispielen für meine Statistik-Vorlesung in die Hände gefallen.

Unter der “Clickbait”-Überschrift “Troops prefer Trump to Clinton by a huge margin” wird in der “Military Times” (Sightline Media Group) in epischer Breite eine Umfrage ausgewertet, die vermeintlich belegt, dass die US-Militärangehörigen bei der im November anstehenden Präsidentschaftswahl überwiegend für Donald Trump stimmen werden. Erst ganz am Ende des Artikels – in dem natürlich durchgängig mit Prozentangaben gearbeitet wird, um keine absoluten Werte nennen zu müssen – folgen einige kurze Erklärungen zur Methodik der Erhebung. Unter anderem heisst es hier:

“More than 59,000 subscribers received e-mail invitations to participate. In total, 951 respondents completed the survey.”

Mit anderen Worten: Von mehr als 59.000 angeschriebenen Abonnenten haben sich lediglich 951 beteiligt. Als Vollerhebung ist die Untersuchung damit auf ganzer Linie gescheitert, als Stichprobe taugt sie allerdings ebenfalls nicht, da die Probandinnen und Probanden sich selbst auswählen konnten – und eher nicht davon auszugehen ist, dass sich die Motivation zur Teilnahme als Merkmal zufällig in der Gruppe aller angesprochenen Abonnenten verteilt. Dies ganz davon abgesehen, dass man selbst bei einer erfolgreichen Vollerhebung oder Stichprobe hätte hinterfragen müssen, inwiefern die Gruppe der E-Mail-Abonnenten der “Military Times” überhaupt stellvertretend für die Gesamtheit der US-Militärangehörigen steht. Trotz dieser Schwächen werden die Daten aber nicht nur breit ausgewertet, es wird auch noch eine – zumindest partielle – Repräsentativität unterstellt:

“The sample is not a perfect representation of the military as a whole; it over-represents officers and noncommissioned officers, and under-represents junior enlisted personnel. However, it is representative of the more senior and career-oriented members of the force who run the military’s day-to-day operations and carry out its policies.”

Angesichts der selbstselektiven Teilnehmerauswahl sowie der niederschmetternden Teilnahmequote ist es in der Tat mehr als nur fahrlässig, anzunehmen, dass einzelne Gruppen, die in der gescheiterten Erhebung – möglicherweise rein zufällig – stärker als andere Gruppen vertreten sind, repräsentativ durch diese abgebildet werden. Trotzdem wurde der Artikel auf Facebook zum Zeitpunkt dieses Artikels bereits über 42.000 Mal (!) geteilt – und das innerhalb von nur drei Tagen. Ein gutes Beispiel dafür, wie handwerklich wirklich schlecht gemachte Statistiken sich munter weiterverbreiten können – wenn man deren “Ergebnisse” nur im Brustton der Überzeugung verkauft…

Kommentare (8)

#1 Dr. Webbaer
14. Mai 2016

‘Teilerhebung’, vs ‘Vollerhebung’?
Liegt vielleicht generell hier ein Problem vor? :
– >https://de.wikipedia.org/wiki/Online-Umfrage

More than 59,000 subscribers received e-mail invitations to participate. In total, 951 respondents completed the survey.

Vermutlich das einzige zuverlässige Ergebnis der Umfrage, korrekt, immerhin könnte alternativ daraus geschlossen werden, dass die US-Armee-Angehörigen nicht so-o unzufrieden sind mit der Politik der US-Demokraten, weil ansonsten eine höhere Response-Quote zu erwarten wäre.

MFG + danke für diesen WebLog-Artikel!
Dr. Webbaer
#2 Christian Reinboth
14. Mai 2016

@Webbaer: Grundsätzlich lassen sich im Rahmen von Online-Erhebungen sowohl repräsentative Stichproben als auch gültige Vollerhebungen realisieren – nur kommt es eben auf die Art der Stichprobenziehung bzw. auf die Teilnahmequote an. Die Grundgesamtheit “Alle Angehörigen des US-Militärs” lässt sich sicher nicht so einfach statistisch sauber im Netz befragen, da außer dem Verteidigungsministerium vermutlich niemand über ein vollständiges Verzeichnis dieser Grundgesamtheit samt Kontaktdaten sowie über die Möglichkeit zur Incentivierung (oder Anordnung) einer Teilnahme verfügt. Die Grundgesamtheit “Online-Abonnenten der ‘Military Times'” könnte man dagegen – mit entsprechendem Aufwand – durchaus statistisch sauber befragen – nur eben nicht so wie hier demonstriert.

Vermutlich das einzige zuverlässige Ergebnis der Umfrage, korrekt, immerhin könnte alternativ daraus geschlossen werden, dass die US-Armee-Angehörigen nicht so-o unzufrieden sind mit der Politik der US-Demokraten, weil ansonsten eine höhere Response-Quote zu erwarten wäre.

Eine begründete Spekulation, der ich mich inhaltlich durchaus anschließen könnte – trotzdem aber eben nur eine Spekulation, da für die niedrige Rücklaufquote ja auch noch eine Vielzahl anderer Ursachen in Frage käme. So könnte das (vermutlich ja angebotene) Incentive beispielsweise falsch gesetzt und somit unattraktiv gewesen sein. Vorstellbar wäre auch, dass ein Großteil der Angesprochenen mit den zwei inzwischen nur noch zur Verfügung stehenden Optionen (Trump vs. Clinton) so unzufrieden war, dass er/sie gar keine Stimme abgeben wollte. Und, und, und – man kann es schlicht und ergreifend nicht wissen…
#3 Dr. Webbaer
14. Mai 2016

Lieber Herr Reinboth,
Sie haben ja in der im WebLog-Artikel behandelten Sache so-o recht, auch in der sich anschließenden Kommentatorik, vielen Dank für Ihre Reaktion, abär es wäre womöglich schon angemessen gewesen im WebLog-Artikel aufzuweisen, wie es stattdessen und den Kenntnisständen der Meinungsforschung folgend gehen könnte.

Der Schreiber dieser Zeilen ist natürlich das Fachgebiet meinend, wie so oft, nur interessierter Laie, Dilettant, in etwa so, wie jeder fast überall nur Ausländer ist, sind Sie mehr?

MFG
Dr. Webbaer
#4 Beobachter
14. Mai 2016

@ Christian Reinboth:

Danke für Ihren Beitrag.
Zum Glück gibt es noch aufmerksame Fachleute, die genauer hinsehen und aufzeigen, dass und warum es so nicht geht und wie fahrlässig Studien/Statistiken/Umfragen erstellt werden.
#5 Zweifler
15. Mai 2016

Als ob nicht jede Umfrage ein Problem mit der Genauigkeit hätte.

Vor praktisch jeder politischen Wahl werden telefonische (seltener schriftliche) Umfragen durchgeführt von renommierten Gesellschaften. Dabei schneiden die extremen Parteien immer schlechter ab in der Vorhersage. Am Wahlabend wundert man sich jedesmal wie konnten das passieren?

Ganz einfach, weil nicht jede Gruppe bereit ist bei so einer Umfrage teilzunehmen und selbst wenn sie teilnehmen. Wer garantiert daß die Gruppe auch die Wahrheit sagt? Die Gruppe kann behaupten Partei A zu wählen weiß aber schon jetzt, sie wird Partei B wählen.

Mir ist dabei bewußt, bei Umfragen wird versucht durch redundante Fragen dieses Problem zu minimieren. Aber das hat bisher noch nie perfekt geklappt.
#6 Christian Reinboth
15. Mai 2016

@Zweifler: Grundsätzlich gibt es sogar eine Menge Probleme mit Wahlumfragen, so zum Beispiel das im Kommentar angesprochene Problem der sozialen Erwünschtheit (Befragte sind nicht bereit zuzugeben, dass sie extremistische Parteien wählen wollen) oder aber die zunehmend sinkende Abdeckung von Telefonstichproben (weil immer mehr junge Menschen über keinen Festnetzanschluss mehr verfügen und in keinem Telefonbuch mehr gelistet sind). Gerade weil es diese Probleme gibt, ist es aber wichtig, nicht an jede Erhebung einfach die Attribute “repräsentativ” und “signifikant” zu hängen, und die Bedeutung dieser wichtigen Signalbegriffe damit immer weiter zu verwässern…
#7 Dr. Webbaer
15. Mai 2016

(…) Befragte sind nicht bereit zuzugeben, dass sie extremistische Parteien wählen wollen (…)

Variante:
Befragte sind oft nicht bereit anzugeben, dass sie Parteien zu wählen beabsichtigen, die bundesdeutsch multimedial bis sozusagen amts-politisch [1] kommuniziert nicht zu wählen sind.
Diese müssen nicht ‘extremistisch’ sein.

Aber dies kann von Meinungsforschenden (“Meinungsforschern” ginge natürlich auch, der Schreiber dieser Zeilen versucht sich hier rein spaßeshalber Moden anzupassen, die sogar in der bundesdeutschen “Union” stattfinden) antizipiert und modelliert werden.
Dann werden Faktoren in die Modellierung eingespielt, die vorwegnehmen, die Umfrageergebnisse dann dem tatsächlichen Wahlausgang zu entsprechen in der Lage zu prädiktieren sind.
So ein “Ich weiß schon, will aber nicht sagen”-Faktor.

MFG
Dr. Webbaer

[1]
Es gibt hier in der BRD eine lange Historie, es sind in puncto absehbarem Wahlresultats von den beforschenden bis “beforschenden” Instituten, die Grünen, die Republikaner und aktuell die sogenannte AfD meinend, manchmal Falsch-Einordnungen vorgenommen worden, womöglich bewusst, teilweise mittlerweise: absichtlich.

Meinungsforscher dürfen insofern nie Aktivisten oder “Player” werden, also nicht parteiisch, dieser Jonny offenbart sich bspw. hier im Negativen:
-> https://www.handelsblatt.com/politik/deutschland/interview-mit-forsa-chef-guellner-afd-als-volkspartei-voelliger-quatsch/12650732.html
#8 Dr. Webbaer
15. Mai 2016

* teilweise mittlerwei[l]e [allgemein erkennbar]: absichtlich

-> https://www.spiegel.de/spiegel/print/d-8906543.html (SPIEGEL-Archiv)

Güllner spielt in dieser “Allensbach-Liga”, vergleichsweise.

Insofern sieht es auch in der BRD traurig aus, wobei dort wohl weniger sozusagen technische Fehler vorliegen, danke für den WebLog-Artikel!, sondern schlicht bedarfsweise gekauft wird.

Nein, eine gescheiterte Vollerhebung mit 1% Rücklauf ist ganz sicher nicht “repräsentativ”

Kommentare (8)

Über den Autor

Grundlagen der Statistik – die Blogserie

Meistgelesene Beiträge

Blogroll

Arbeits-Weblinks

Gastbeiträge

Bücher (Schleichwerbung)

Neueste Beiträge

Frei nutzbare Online-Repositorien für wissenschaftliche Publikationen und Forschungsdaten

Von Wikis, Screencasts und Zoom-Vorlesungen – ein Erfahrungsbericht zum „Corona-Semester“

Lichtverschmutzung in “Discover Space” (Brøderbund, 1992)

Wie lässt sich das Benfordsche Gesetz mit Excel demonstrieren?

Racial Profiling und der Satz von Bayes

Letzte Kommentare

Archive

Nein, eine gescheiterte Vollerhebung mit 1% Rücklauf ist ganz sicher nicht “repräsentativ”

Kommentare (8)

Abonnieren

Über den Autor

Grundlagen der Statistik – die Blogserie

Meistgelesene Beiträge

Blogroll

Arbeits-Weblinks

Gastbeiträge

Bücher (Schleichwerbung)

Worum geht es hier?

Neueste Beiträge

Frei nutzbare Online-Repositorien für wissenschaftliche Publikationen und Forschungsdaten

Von Wikis, Screencasts und Zoom-Vorlesungen – ein Erfahrungsbericht zum „Corona-Semester“

Lichtverschmutzung in “Discover Space” (Brøderbund, 1992)

Wie lässt sich das Benfordsche Gesetz mit Excel demonstrieren?

Racial Profiling und der Satz von Bayes

Letzte Kommentare

Archive