Dieser Artikel ist Teil des ScienceBlogs Blog-Schreibwettbewerb 2017. Informationen zum Ablauf gibt es hier. Leserinnen und Leser können die Artikel bewerten und bei der Abstimmung einen Preis gewinnen – Details dazu gibt es hier. Eine Übersicht über alle am Bewerb teilnehmenden Artikel gibt es hier. Informationen zu den Autoren der Wettbewerbsartikel finden sich in den jeweiligen Texten.
——————————————————————————————————————
Statistik leicht gemacht: was und warum ist der Median?
von Jens Foell
Ich bin Psychologe und Hirnforscher, derzeit an der Florida State University, und verbringe meine Zeit auch gerne mit Wissenschaftskommunikation. Ihr findet mich auf Twitter unter @fMRI_guy.
Alle reden vom Durchschnitt. Dabei stellt sich aber schnell raus: dieser ist häufig einfach irreführend. Aber wann? Und warum? Und was können wir dagegen tun? Gibt es etwa ein fast genauso einfaches Alternativmaß, auf das man sich verlassen kann? Oh ja, das gibt es, und zwar den Median!
Ich muss euch ein krasses Geheimnis verraten: Nicht jede Statistik ist gelogen.
Ja gut, bei manchen Statistiken, die man in den Medien sieht, verliert man schnell mal den Verstand. Und auch sonst sind manche Zahlen und Diagramme schwer zu glauben. Aber Tatsache ist: Die meisten Statistiken sind nicht gelogen, sondern nur auf eine Art präsentiert, die sie bedeutungslos machen. So ist es meist zu erklären, dass verschiedene “Experten” bei demselben Thema mit völlig unterschiedlichen Zahlen um die Ecke kommen.
Das Gute ist: es gibt eine Lösung. Das zweite krasse Geheimnis lautet nämlich: Statistik ist bei weitem nicht so kompliziert, wie einem alle vormachen. Es ist ein wenig wie beim Schach: Man braucht Jahre und Jahrzehnte, um sich richtig aus zu kennen, und die Großmeister sind nur damit beschäftigt, sich gegenseitig zu übertreffen. Aber genau wie beim Schach gibt es nur wenige Grundregeln, die man verstanden haben muss, um zu begreifen, was vor sich geht.
Was ich mit diesem Post erreichen will ist, dass ihr innerhalb von ein paar Minuten genug gelernt habt, um auf den ersten Blick zu erkennen, wenn euch einer eine bedeutungslose Statistik unterjubelt. Quasi so, wie man auf den ersten Blick eine unmögliche Aufstellung beim Schach erkennen kann.
Kommen wir also gleich zum ersten Beispiel. Stellen wir uns vor, ich habe eine großartige CD mit selbst gesungener Musik produziert. Der Einfachheit halber nennen wir sie “Nuschelrock, Vol. 1”. Jetzt verkaufe ich meine Nuschelrock-CD übers Internet, und benutze dabei ein System, das sich seit einer Weile bewährt hat: Jeder darf zahlen, was er will. Nach ein paar Tagen schaue ich nach den Verkaufszahlen und sehe, dass zumindest manche Leute anbeißen. Der eine zahlt vielleicht 4 Euro für die CD, der andere vielleicht 10 Euro… das Zwischenergebnis sieht irgendwann so aus:
Verkaufte CDs: 100
Gesamteinnahmen: 732 Euro
Jetzt würde ich aber gerne wissen: Was ist den Leuten meine CD im Durchschnitt wert? Den Durchschnitt zu berechnen, ist einfach: 732 Euro geteilt durch 100 verkaufte CDs ergibt 7,32 Euro pro CD. Das sind die Leute im Schnitt bereit, auszugeben.
Plötzlich passiert etwas Tolles: ein wohlhabender Freund von mir ist so begeistert von meiner Aktion, dass er eine CD für 1000 Euro bestellt, um mir einen Gefallen zu tun. Oder vielleicht aus Mitleid. Mir als Schwabe ist das zunächst mal egal, solange nachher der Kontostand stimmt. Und wie sehen jetzt, nach dieser einen weiteren Bestellung, die Verkaufszahlen aus?
Verkaufte CDs: 101
Gesamteinnahmen: 1732 Euro
Berechnen wir nun noch mal den Durchschnitt: 1732 Euro geteilt durch 101 verkaufte CDs ergibt im Schnitt 17,15 Euro. Durch diesen einen Verkauf hat sich der Schnitt mehr als verdoppelt.
Was habe ich jetzt für ein Problem damit? Ganz einfach: Der Durchschnitt ist jetzt nicht mehr stellvertretend dafür, was den Leuten meine CD tatsächlich wert ist. Wenn ich mir überlege, was meine CD auf dem freien Markt einbringen würde, wäre die Antwort immer noch “knapp über 7 Euro”. Mein neuer, überzogener Durchschnitt mag mir vielleicht ein tolles Image einbringen, aber die Aussage “im Schnitt zahlen die Leute über 17 Euro für meine CD” wäre irreführend, selbst wenn sie mathematisch korrekt ist.
Der Knackpunkt ist, dass das bei allem zutrifft, bei dem statistische Ausreißer vorkommen. Durchschnittsgehälter zum Beispiel: In Deutschland gibt es Tausende Einkommensmillionäre, die den Schnitt vollkommen verfälschen. Andere Beispiele sind Miet- bzw. Hauspreise oder Einspielergebnisse bei Filmen. Ein Gegenbeispiel wäre die Körpergröße: Die ist so verteilt, dass jeder extrem große Mensch im Grunde durch einen extrem kleinen ausgeglichen wird – der Durchschnitt stimmt also wieder.
Aber woher soll man das als Konsument wissen? Muss ich jedes Mal erst über die Verteilungen und Hintergründe nachlesen, wenn mir die Tagesschau (oder, Gott bewahre, die Bild-Zeitung) einen Durchschnitt präsentiert?
Es gibt zum Glück eine einfache Lösung, und zwar den Median. Der ist ein anderes Maß, um einen Mittelwert zu berechnen. Wie das geht? Ganz einfach: Stellen wir uns vor, ich bestelle mir alle ein, die im Internet meine CD bestellt haben. Dann stelle ich sie alle nebeneinander auf, und zwar in der Reihenfolge des Preises, den sie bezahlt haben.
Es stehen also alle 101 Kunden sauber aufgereiht in meiner Wohnung. Ganz am einen Ende steht mein wohlhabender Freund, ganz auf der anderen Seite der größte Knauser (der vielleicht nur einen Cent für die CD bezahlt hat). Jetzt gehe ich zu dem in der Mitte (in dem Fall Nummer 51) und frage ihn, wie viel er bezahlt hat. Seine Antwort wird sehr nahe an 7,32 Euro liegen – vielleicht hat er 7 Euro bezahlt, vielleicht auch 7,50 Euro. Aber in jedem Fall ist seine Antwort der Median – und der ist hier aussagekräftiger als der “andere” Durchschnitt, weil mein wohlhabender Freund nicht mehr so stark ins Gewicht fällt.
Kurzum: In solchen Fällen ist der Median verlässlicher. Wann immer es um Dinge geht, die schief verteilt sein könnten, solltet ihr darauf bestehen, dass euch niemand einen bedeutungslosen Durchschnitt vorsetzt, sondern alle nur den Median. Solange aber die Leute gar nicht wissen, dass es dieses Maß gibt – warum sollten sich die Medien die Mühe machen, es anzugeben?
Eine kleine Info am Rande: Obwohl den Amerikanern gerne eine mangelnde Allgemeinbildung vorgeworfen wird, haben die US-Medien die Bedeutung des Medians schon längst verstanden. Egal ob im Fernsehen oder im Radio – jeder, der etwas auf sich hält, wird im entsprechenden Fall den Median angeben und sagt das in aller Regel auch dazu. Das ist der beste Weg, um verlässliche Zahlen zu erhalten – und übrigens ist das gleich das dritte Geheimnis dieses Artikels: Die Annahme der mangelnden Allgemeinbildung in den USA ist in den meisten Zusammenhängen eine reine Illusion.
Für alle, die tatsächlich bis hierher durchgehalten haben: Gratulation, ihr lasst euch jetzt ein bisschen weniger leicht über den Tisch ziehen, wenn es um Statistik geht. Ein kleiner Schritt gegen die Fake News!
Kommentare (78)