In der Statistik dreht es sich häufig um Hypothesen, also Annahmen, die man bestätigen oder zurückweisen möchte. Sind die Erbsen der einen Sorte süßer, als die der anderen? Hilft das eine Medikament besser als das andere? Leben Patienten mit Tumortyp I länger als welche mit Typ II oder werden sogar wieder gesund?
In diesem Zusammenhang arbeitet man oft mit dem T-Test. Weil es immer schön einsichtig ist, nehmen wir ein Beispiel, sagen wir die Größe von Erbsen der einen und der anderen Sorte. Zunächst werden alle ausgemessen und in zwei Listen aufgeteilt.
Bevor wir richtig loslegen, müssen wir kurz überlegen oder in den Daten mal genau nachschauen, ob die Größe der Erbsen einer Sorte jeweils normalverteilt sind. Das heisst, es gibt viele die ungefähr Größe M haben und ziemlich wenige, die viel größer oder viel kleiner als M sind. Die Normalverteilung (=Gaußkurve) ist sicher bekannt, man sieht sie auch oben im Blog-Banner links. So eine Verteilung entsteht, wenn man seine Erbsen (für beide Sorten getrennt) sortieren würde, wie ich es hier gemacht habe: die kleinen links, die großen rechts, in gleich großen Intervallen (bei mir im Beispiel allerdings mehr pi-mal-Daum). Meine Erbsen sind also netterweise tatsächlich ungefähr normalverteilt.
Was ist, wenn die Daten nicht normalverteilt sind? Dann sieht es schlecht aus mit dem T-Test, dann hat der so, wie er berechnet wird, keine ordentliche Aussagekraft. Zum Glück gibt es aber andere Tests, bei denen so eine Voraussetzung nicht erfüllt sein muss, z.B. den U-Test.
Nachdem das geklärt ist, guckt man als erstes auf den Mittelwert: Sind beide Sorten im Mittel unterschiedlich? Das ist schonmal sehr wahrscheinlich, es wird kaum passieren, dass beide Werte exakt gleich sind. Aber sind sie unterschiedlich genug?
Jetzt kommt die Varianz mit ins Spiel. Meine Erbsen sind alle ähnlich groß, die Werte liegen zwischen 5mm und 7mm im Durchmesser. Die Varianz ist jetzt die Abweichung vom Mittelwert(6mm) (MW-xi) zum Quadrat(es werden also die, die weiter vom Mittelwert entfernt sind stärker berücksichtigt, als die in der Nähe), aufsummiert über alle Erbsen und dann geteilt durch n-1. Davon die Wurzel ist die Standardabweichung:
Wer jetzt den letzten Satz einfach übersprungen hat, der möge ihn bitte nochmal lesen, man kann Formeln auch verstehen, nicht nur sie verwenden!
Hätte ich also Erbsen mit größerer Varianz (also auch Standardabweichung) in ihrer Verteilung, dann wären auch welche mit 8mm und 4mm dabei und dafür wäre die Spitze bei den mittleren Werten nicht so hoch, weil es sich ja mehr an den Seiten verteilt. Bei weniger Varianz hätte ich vielleicht nur Erbsen bis 6,5mm und 5,5mm und die Mitte der Gaußkurve wäre höher.
(Quelle: Wikipedia; rot und grün mit höherer Varianz, als blau; grün und blau haben den gleichen Mittelwert)
Nun kann man sich vorstellen: Wenn für beide Erbsensorten die Varianz klein und die Gaußkurve entsprechend schmal und hoch ist, dann wäre ein kleiner Unterschied im Mittelwert (also der Spitzen) von vielleicht 1mm schon aussagekräftig. Dann würden die Flächen der beiden Verteilungen sich nur wenig überschneiden. Wären die Varianzen groß, müssen die Mittelwerte schon deutlich auseinanderliegen, damit man einen echten Unterschied hat, also die Schnittfläche der Verteilungen gering genug ist. Im obigen Beispiel ist die Schnittfläche zwischen roter und grüner Verteilung ziemlich groß!
Jetzt muss man noch berücksichtigen, wie exakt unsere Zahlen sind. Hat man wenig Erbsen gezählt, kann es sein, dass wir uns ziemlich verschätzen beim Mittelwert und der Streuung. Je mehr Erbsen, umso sicherer können wir sein (die Mühe habe ich mir jetzt mal nicht gemacht, das war schon fummelig genug!).
Wenn wir zwei Verteilungen betrachten, müssen wir noch die gewichtete Varianz bestimmt. Da fließen die Varianzen der beiden Stichproben ein, gewichtet mit der Stichprobengröße – die größere Stichprobe hat mehr Einfluß.
Jetzt berechnet der T-Test wie weit die Mittelwerte der beiden Gruppen, x und y, voneinander verschieden sind, normiert durch die gewichtete Varianz (bei großer Varianz weniger aussagekräftig, als bei kleiner) und das wird noch multipliziert mit einem Faktor, der die Anzahl der Erbsen und somit die Verlässlichkeit der Stichprobe berücksichtigt:
(Für die, die auf Genauigkeit pochen: Da es hier mit den Formeln nicht so einfach ist, bzw. ich weiss noch nicht, wie ich die gut setzen kann: x mit Querstrich bedeutet Mittelwert der Stichprobe X, in der Formel steht es richtig, im Text krieg ich keinen Strich draufgezaubert, deswegen steht da nur ein x, es soll aber das gleich heissen.)
Wir haben unser t!
Äh, t?
Das t sagt uns, wie signifikant der Unterschied ist. t kann sowohl negativ als auch positiv sein – negativ bedeutet, dass der Mittelwert x kleiner als Mittelwert y unseres Versuchs war; positiv entsprechend anders herum.
Jetzt müssen wir noch festlegen, wieviel Fehlerraum wir unseren Daten zugestehen wollen. Sagen wir, dass mit einer Wahrscheinlichkeit von 5% es Zufall sein könnte, dass die Erbsen alle zufällig in Gruppe x kleiner als in Gruppe y wären. Diese Fehlerprozente (“alpha”) sollten möglichst klein sein, um solche Fehler ziemlich unmöglich zu machen – ausschließen kann man sie aber nie. Die Wahrscheinlichkeit 100-alpha, also hier 95%, ist die Konfidenz, die Sicherheit, dass man richtig liegt.
Mit den Werten t und der Größe der Stichprobe (hier die Anzahl der Erbsen) geht man in einer Tabelle nachgucken, heutzutage fragt man wahrscheinlich das Statistikprogramm, wie groß der Fehler durch Zufall sein dürfte. Ist er kleiner als alpha, sieht es gut aus und man kann das Ergebnis schön publizieren. Ist er es nicht, weiss man nichts. Man könnte neue Tests machen oder sich andere Erbsen züchten. Angeblich sind auch Negativergebnisse nützliche Ergebnisse, erfahrungsgemäß sieht es mit dem publizieren dann aber nicht so doll aus.
So, fragt jetzt noch einer, was man da jetzt im Statistikprogramm oder der Tabelle nachgeguckt hat, dann sollte ich auch diese Frage wohl beantworten.
Das t entstammt einer t-Verteilung mit den Freiheitsgraden n(=Anzahl Erbsen)-1, die sieht ungefähr wie eine Normalverteilung aus, bei größeren n zunehmend schmaler (und höher) mit Mittelwert 0.
Was bedeutet das?
Das bedeutet, dass wenn man sehr viele Tests mit irgendwelchen Daten machte, von denen man wüsste, dass es keine Unterschiede in den Mittelwerten gibt, dann würden die berechneten t-Werte vorrangig in der Nähe von 0 zu finden sein – die Differenz der Mittelwerte ist halt ungefähr null. Selten kann es passieren, dass doch, zufällig, eine größere Differenz ermittelt wird und somit ein größerer t-Wert. Je mehr Daten man hat (größeres n), umso unwahrscheinlicher wird das aber, deswegen sind diese Verteilungen mit hohem Freiheitsgrad schmaler.
Das Statistik-Programm verrät uns also den Flächeninhalt der t-Verteilung ab der Stelle t bis unendlich – das entspricht der Wahrscheinlichkeit, dass wir zwar eine Differenz messen, es aber nur auf Zufall beruht. Sowas nennt man auch ein falsch-positives Ergebnis. Und diese Fehlerwahrscheinlichkeit sollte nach unserer Vorgabe unter dem Wert alpha=5% (5% der Fläche) liegen.
Genug der Erbsenzählerei!
Andrea Thum
Kommentare (32)