Ausser man gehört zu den Hikikomori und ist TV frei, ist es wohl in Deutschland im Moment unmöglich zu verpassen, dass Wahlen anstehen. So sicher wie die nichtsagenden Versprechen auf den Wahlplakate kommen, so sicher weiss man, es ist wieder Zeit für Wahlumfragen. Als fast eben so sicher gilt leider auch, dass diese falsch interpretiert werden.
Nicht selten wird in den Medien ein Plus oder ein Rückgang von ein oder zwei Prozentpunkten (oder noch weniger) zu Tode interpretiert. Dass man Umfragen nicht trauen kann, gehört zum politischen Allgemeinwissen wie das “Wissen” darum, dass alle Politikerinnen und Politiker lügen. Wie Süchtige stürzen sich die Medien trotzdem gleich nach dem Naserümpfen wieder auf jede neue Umfrage.
Darum war dieser journalistischer Versuch etwas Klarheit zu schaffen und nachzufragen, wie zuverlässig die Umfragen in den letzten Jahren in Deutschland eigentlich waren, ein lobenswerter Ansatz. Leider verstärkt der Artikel wohl eher viele Missverständnisse, als dass er sie klärt. Leider ist es so, dass der Versuch hier journalistisch unter die Motorhaube zu schauen, um falscher Berichterstattung auf die Sprünge zu helfen, ironischerweise daran scheitert, dass missverstanden wurde, was man unter eben dieser Haube sieht. Der Autor hat zwar nach einer kurzen Diskussion auf Twitter eine Korrektur angebracht, aber ich glaub das Problem bleibt bestehen, da der Eintrag immer noch die falschen Schlussfolgerungen aus den falschen Gründen zieht.
Unter dem Titel Bundestagswahl: Wie gut waren die Vorhersagen der Umfrageinstitute? werden die Umfragen für Deutschland von sechs Umfrageinstituten für die letzten vier Bundestagswahlen mit den effektiven Wahlresultaten abgeglichen. Der Einstiegssatz zeigt auch gleich die Richtung an: “Wie gut sind die Prognosen der Umfrageinstituten? Kurz gesagt: Solala.” Weiter unten liest man: “Durch die Bank weg haben alle der sechs hier betrachteten Umfrageinstitute bei der Wahl in 2005 deutlich daneben gelegen: CDU/CSU sahen alle bei 41 oder 42 Prozent – tatsächlich kamen die auf 35,2 Prozent.”
Bevor ich auf die konkreten Zahlen des Artikels eingehe, möchte kurz zusammenfassen, was diese Umfragen behaupten wiederzugeben (was meistens etwas anderes ist, als was reingelesen wird). Wie der verlinkte Artikel korrekt betont, handelt es sich zuerst einmal nicht um Prognosen, sondern um Momentaufnahmen. Menschen können ihre Meinung aus tausend unterschiedlichen Gründen ändern. Man kann davon ausgehen, dass sich die Volatilität in Grenzen hält, aber das ist schon einmal ein wichtiger Punkt, den man im Hinterkopf behalten muss, wenn man die Umfragewerte mit dem Endresultat vergleicht. Das Wahlresultat ist nichts anderes als eine weitere, spätere Momentaufnahme.
Ein zweiter wichtiger Aspekt hat mit statistischen Methoden zu tun. Ich spare euch die Details (auch weil es da viel kompetentere Leute gibt dafür). Was man dazu wissen muss ist, dass Umfragen immer eine Fehlerquote angeben (und die sollte in den Medien eigentlich auch erwähnt werden). Jede Veränderung oder jeder Unterschied innerhalb von dieser Fehlerquote ist eigentlich nicht diskussionswürdig, weil praktisch bedeutungslos. Nehmen wir an Partei A hat 38% und Partei B 33% und die Fehlerquote ist +/-3% Punkte. Dann heisst das, dass die Partei A irgendwo zwischen 35% und 41% liegt und die Partei B zwischen 30% und 36%. Mehr weiss man nicht und mehr behauptet eine einzelne Umfrage nicht.
Dazu kommt, dass diese Fehlerquote nur mit einer gewissen Wahrscheinlichkeit stimmt. Typischerweise sind das 95%. Das heisst, dass auf 20 Umfragen es zu erwarten ist, dass die angegebene Fehlerquote (hier +/-3%) einmal sogar ausserhalb von diesem Bereich liegen wird. All dies ist unter der Annahme, dass die Gruppe der befragten Wählerinnen und Wähler wirklich repräsentativ ist (respektive repräsentativ gewichtet wurde). Die ganzen Einschränkungen machen natürlich keine knackige Schlagzeile. Mann muss sich aber bewusst sein, dass dies ist, was die Umfraginstitute feststellen. Mehr können sie gar nicht sagen.
Schauen wir uns also kurz den Eingangs erwähnten Eintrag an. Der Autor rechnet einfach die Abweichungen für jede Partei von Resultat und Umfrageergebnis für jedes Jahr zusammen und schliesst daraus, dass die Vorhersagegenauigkeit zu wünschen übrig lässt. Dies ist aber eine falsche Messlatte. Hierzu ein Beispiel, dass dies klar machen sollte:
Nehmen wir an, ich gehe mit den KollegInnen von der Arbeit täglich Mittagessen. Wir gehen normalerweise um 13.00 los. Ich sage nun, dass ich täglich plus/minus 5 Minuten um 13.00 unten am Eingang warten werde. Schliesslich muss man manchmal noch einen Satz zu Ende schreiben oder es lohnt sich nichts neues mehr anzufangen. Ich tauche in der ersten Woche folgendermassen auf: Montag: -3 Minuten; Dienstag +4 Minuten; Mittwoch +2 Minuten; Donnerstag -4 Minuten und Freitag +3 Minuten. Es wäre nicht fair wenn mir nun Ende Woche vorgehalten würde, ich würde es mit der Zeit nicht so genau nehmen wäre ich doch über die ganze Woche 16 Minuten falsch gelegen, weit ausserhalb meiner +/-5 Minuten. Es sollte offensichtlich sein, dass ich gemessen an meiner Aussage zumindest, in der betreffenden Woche dem Schweizer Klischee in Sachen Pünktlichkeit voll und ganz gerecht wurde. Ausserdem hätte ich in einer noch besseren Analogie versprochen, dass ich die “plus/minus 5 Minuten bis auf wenige Ausnahmen” einhalten werde (in “95% aller Fälle).
Schaut man sich die Zahlen genauer an, sieht man dann auch, dass das Fazit des Artikels (“Sosolala”) nur mit einer falschen Leseart begründet werden kann. Die Daten stehen netterweise in einem google doc zur Verfügung. Nehmen wir an, die angegebene Fehlerquote liegt überall bei +/-3%. Auf 120 Abweichungen sind nur 14 ausserhalb dieser Fehlerquote (man darf nicht vergessen, dass gewiss Abweichung zu erwarten sind, da die Fehlerquote nur mit einer gewissen Wahrscheinlichkeit korrekt ist).
Was nun wirklich interessant ist an den Zahlen, ist das Jahr 2005. Der Autor weist sogar auf die interessanten Abweichung hin. Leider nicht, weil ihm auffällt, dass dort Erklärungsbedarf besteht, sondern weil es die grössten Abweichungen sind, die darum als Beispiel erhalten müssen, wie daneben die Umfrageinstitute doch liegen. Es lohnt sich einen genaueren Blick auf die Wahl von 2005 zu werfen, speziell die Abweichungen für die CDU/CSU. Sie liegen nämlich für jedes Umfraginstitut ausserhalb der zu erwartenden Abweichung (-6.30% ; -6.80%; -6.80%; -5.80%; -6.80%; -5.80%). Da ist ganz klar etwas schief gelaufen. Aber nicht nur das, der Fehler scheint systematisch zu sein. Er betrifft die selbe Partei, dasselbe Jahr, es handelt sich immer um eine Unterschätzung und noch dazu in ähnlicher Grössenordnung. Die Tatsache, dass die grössten Abweichungen einer anderen Partei bei der auf dem politischen Spektrum verwandten FDP zu finden sind, könnte ein weiterer Hinweis auf das Problem sein. In diesem Fall waren die Resultate nicht nur “Sosolala” sondern klar falsch und es sieht so aus wie es einen guten Grund dafür gab.
Fazit: Die Umfragen haben bis auf das Jahr 2005 eigentlich eine ziemlich gute Trefferquote gehabt, misst man sie an dem, was sie tatsächlich versprechen. Der einzige nicht erklärte Ausreisser waren die Werte für die CDU/CSU im Jahr 2005. Das wäre eine interessante Geschichte gewesen, von der ich gerne mehr gelesen hätte.
Nachtrag: Zufälligerweise wurde gerade auf dem IR Blog von den Kollegen, die ich manchmal ungefähr um 13.00 Uhr zum Mittagessen treffe, etwas zu Umfragen und Prognosen zur Bundestagswahl gepostet (viel detaillierter, kompetenter und technischer als hier). Wer das Thema vertiefen möchte, dem sei der Eintrag wärmstens empfohlen (Englisch).
Kommentare (11)