Diese Frage zu einer statistischen Formel wird mir im Rückblick vermutlich noch ziemlich peinlich sein

Von Christian Reinboth / 14. Mai 2016 / 8 Kommentare

Wenn man lange genug bloggt (bei mir sind es inzwischen immerhin schon acht Jahre), kommt vermutlich zwangsläufig der Moment, an dem man sich mit einer Demonstration völliger Unkenntnis blamiert. Falls es bei mir nicht ohnehin schon so weit gewesen sein sollte, hole ich das heute mit einer möglicherweise ziemlich dämlichen Frage zu einer statistischen Formel nach, über die ich im Rahmen der Vorbereitung einiger Übungsaufgaben für meinen aktuellen Statistik-Kurs gestolpert bin.

Konkret geht es um die Formel zur Berechnung des sogenannten Quartilskoeffizienten der Schiefe – dem einzigen Maß für die Symmetrie (oder Asymmetrie) einer Verteilung, welches sich auch für ordinalskalierte Daten berechnen lässt (bei metrischen Daten greift man da ja eher auf den Momentenkoeffizienten der Schiefe zurück – zumindest solange, wie keine Ausreißer im Datensatz zu berücksichtigen sind). Um den Quartilskoeffizienten der Schiefe berechnen zu können, muss man lediglich die drei Quartilswerte (oberer Quartilswert p_0,75, Median / mittlerer Quartilswert p_0,50 und unterer Quartilswert p_0,25) berechnen, wie man sie unter anderem ja auch für die Konstruktion von Box-Plots oder die bekannte Fünf-Werte-Zusammenfassung benötigt. Die Formel zur Berechnung des Quartilskoeffizienten lautet:

Der sich ergebende Wert g_0,25 liegt stets zwischen +1 und -1, wobei Werte nahe 0 auf eine symmetrische, positive Werte dagegen auf eine linkssteile (und rechtsschiefe) und negative Werte auf eine rechtssteile (und linksschiefe) Verteilung hindeuten. Für eine ganz perfekt symmetrische Verteilung ist ein Ergebnis von 0 zu erwarten.

Sehen wir uns dies einmal an einem klassisch-ordinalskalierten Schulnoten-Beispiel mit 10 Schüler/innen an:

Note 1: 2 Schüler/innen
Note 2: 5 Schüler/innen
Note 3: 2 Schüler/innen
Note 4: 0 Schüler/innen
Note 5: 1 Schüler/in

Bringt man diese Werte in eine geordnete Reihenfolge, so ergibt sich folgendes Bild:

[1; 1; 2; 2; 2; 2; 2; 3; 3; 5]

Die Quartilswerte dieser Verteilung lassen sich leicht berechnen (eine ausführliche Erklärung spare ich mir an dieser Stelle, da ich ohnehin gerade an einem demnächst startenden Blog-Einführungskurs für die deskriptive Statistik sitze) und lauten:

x_0,75 = 3
x_0,50 = 2
x_0,25 = 2

Der Quartilskoeffizient der Schiefe berechnet sich somit wie folgt:

g_0,25 = [(3-2) – (2-2)] / [(3-2)] = 1/1 = 1 (d.h. linkssteil und rechtsschief)

Sehen wir uns nun einmal eine perfekt symmetrische Verteilung der Werte an:

Note 1: 1 Schüler/in
Note 2: 2 Schüler/innen
Note 3: 4 Schüler/innen
Note 4: 2 Schüler/innen
Note 5: 1 Schüler/in

Bringt man diese Werte in eine geordnete Reihenfolge, so ergibt sich folgendes Bild:

[1; 2; 2; 3; 3; 3; 3; 4; 4; 5]

Die Quartilswerte dieser Verteilung lauten:

x_0,75 = 4
x_0,50 = 3
x_0,25 = 2

Der Quartilskoeffizient der Schiefe berechnet sich somit wie folgt:

g_0,25 = [(4-3) – (3-2)] / [(4-2)] = 0/2= 0 (d.h. perfekt symmetrisch)

So weit, so gut. Nun sehen wir uns aber einmal diese Verteilung an:

Note 1: 0 Schüler/innen
Note 2: 1 Schüler/in
Note 3: 8 Schüler/innen
Note 4: 1 Schüler/in
Note 5: 0 Schüler/innen

Bringt man diese Werte in eine geordnete Reihenfolge, so ergibt sich folgendes Bild:

[2; 3; 3; 3; 3; 3; 3; 3; 3; 4]

Die Quartilswerte dieser Verteilung lauten:

x_0,75 = 3
x_0,50 = 3
x_0,25 = 3

Der Quartilskoeffizient der Schiefe berechnet sich somit wie folgt:

g_0,25 = [(3-3) – (3-3)] / [(3-3)] = 0/0= ???

Zu erwarten wäre auch hier ja ein Ergebnis von 0 (symmetrische Verteilung) – das Ergebnis einer Division durch 0 ist ja aber eben nicht 0, sondern vielmehr nicht definiert. Betrachtet man noch einmal die Formel

so ist festzustellen, dass das Problem einer Division durch 0 immer dann auftritt, wenn oberer und unterer Quartilswert identisch, der Interquartilsabstand (IQR, Inter Quartile Range) also 0 lautet. Da in solchen Fällen der Median ebenfalls identisch mit dem oberen und dem unteren Quartil sein muss, endet die Berechnung des Quartilskoeffizienten der Schiefe stets mit 0/0.

Nun zu meiner Frage: Bedeutet das nicht, dass sich der Quartilskoeffizient der Schiefe nur für Verteilungen berechnen lässt, die einen Interquartilsabstand größer 0 aufweisen oder dass der Quartilskoeffizient der Schiefe für alle Fälle, in denen der Interquartilsabstand der Verteilung bei 0 liegt, als g_0,25 = 0 definiert sein müsste? Und wenn dem so sein sollte – warum finde ich diese Einschränkung in keiner Formelsammlung und keinem Lehrbuch? Und wie erkläre ich den Studierenden verbal – also jenseits der Frage nach einer Division durch 0 – warum sich für bestimmte streuungsarme (die Verteilung im Beispiel ist ja nicht gänzlich streuungslos) Ordinal-Verteilungen keine Symmetrie/Asymmetrie bestimmen lässt?

Ich vermute mal, dass es auf diese Frage eine ganz einfache Antwort gibt – ich sehe sie nur gerade nicht. Vielleicht kann mit ja ein/e statistisch versierte/r Leser/in weiterhelfen…?

Kommentare (8)

#1 alex
14. Mai 2016

Für Verteilungen deren Quartilsabstand verschwindet, könnte man ja andere Quantile verwenden um die Schiefe zu charakterisieren, etwa das 0.1- und 0.9-Quantil. So lange nicht alle Werte identisch sind, gibt es ein p so dass x_p ungleich x_{1-p} ist. Ein bisschen willkürlich ist es schon, dass man ausgerechnet die Quartile zur Messung der Schiefe verwendet; bzw. es wäre wünschenswert, wenn es nicht allzu sehr von der genauen Wahl der Quantile abhängt, ob eine Verteilung als links- oder rechtsschief eingestuft wird. Daher klingt es für mich plausibel, für Verteilungen deren Quartilsabstand verschwindet, statt p=0.25 das maximale p (um den Einfluss von Ausreißern zu minimieren) kleiner 0.25 zu wählen, für das x_p ungleich x_{1-p} ist, und aus diesen Werten den Quantilskoeffizienten zu berechnen.
#2 Dining Cryptographer
14. Mai 2016

Der Quartilskoeffizienten der Schiefe schätzt die Schiefe einer Verteilung anhand der Differenzen zwischen 0.25 bzw 0.75 Quartil und dem Median. Das heißt der Koeffizient kann gar keine Aussage über die Form der Verteilung außerhalb von [x_0.25, x_0.75] treffen. In deinem Fall von x_0.25 = x_0.75 besteht dieses Intervall nur aus einen Punkt und enthält damit gewissermaßen keine Information über die Schiefe der Verteilung. Das spiegelt sich im Ergebnis 0/0 wider.

Wie Alex vorgeschlagen hat könntest du das Intervall vergrößern um zu einem Ergebnis zu kommen. Allerdings kann ich mir vorstellen, dass die Varianz des Koeffizienten sehr hoch ist, wenn man den ersten validen Wert nimmt.
#3 Jochen Willi Weber
Ludwigshafen
15. Mai 2016

Hier gibt es u.a. Kap. 5 des Buches Deskriptive Statistik von Peter v.d. Lippe:
https://www.von-der-lippe.org/downloads4.php
Meiner Meinung nach bestes Buch für das Thema (o.k., schon länger her, dass ich das Zeugs lernen durfte…).
#4 Christian Reinboth
15. Mai 2016

@alex: Ja, das sehe ich ganz genau so. Ich vermute mal, der Grund für den Rückgriff auf die Quartile liegt in dem Wunsch, den Koeffizienten robust gegenüber Ausreißern zu gestalten. Bei einem IQR nahe Null macht es aber in der Tat sehr viel Sinn, auf andere Größen für p auszuweichen, um doch noch eine Aussage über die Symmetrie treffen zu können. Die Kernfrage – ob sich der Koeffizient bei einem IQR von 0 denn überhaupt noch kalkulieren lässt – und wenn nicht, warum nicht – ist mit dem Ausweichen auf ein anderes p aber noch offen.
#5 Christian Reinboth
15. Mai 2016

@Dining Cryptographer:

Der Koeffizient kann gar keine Aussage über die Form der Verteilung außerhalb von [x_0.25, x_0.75] treffen. In deinem Fall von x_0.25 = x_0.75 besteht dieses Intervall nur aus einen Punkt und enthält damit gewissermaßen keine Information über die Schiefe der Verteilung. Das spiegelt sich im Ergebnis 0/0 wider.

Das klingt schon äußerst plausibel und deckt sich mit meiner Vermutung, dass sich der Koeffizient bei IQR = 0 in der Tat gar nicht berechnen lässt. Müsste das nicht aber in den gängigen Formelsammlungen als Einschränkung angegeben werden? Bei der Berechnung des Variationskoeffizienten wird ja beispielsweise auch vermerkt, dass dieser nur für Verteilungen mit einem positiven arithmetischen Mittel kalkuliert werden kann…

In jedem Fall: Herzlichen Dank für die einleuchtende Erklärung jenseits meines “weil Division durch Null nun mal nicht geht”. Damit habe ich doch schon mal drei gute Sätze für meine Studierenden. 🙂
#6 Christian Reinboth
15. Mai 2016

@Jochen Willi Weber: Die Webseite kannte ich noch gar nicht – sehr nett. Kommt auf meine Linkliste für die Studierenden. Vielen Dank für den Hinweis.
#7 Karl-Heinz
15. Mai 2016

Die Quartilkoeffizienten bewerten im Zähler den Unterschied zwischen der Entfernung des 25%- beziehungsweise 75%-Quartils zum Median. Bei symmetrischen Verteilungen ist der Abstand gleich groß, der Unterschied ist 0.

Damit gilt für symmetrische Verteilungen g_0,25 =0.
Positive Quartilkoeffizienten weisen auf eine rechtsschiefe,
negative Quartilkoeffizienten weisen auf eine linksschiefe Verteilung hin.

Durch den Nenner wird der Quartilkoeffizient so normiert, dass er nur Zahlenwerte im Bereich – 1 ≤ gP ≤ 1 annehmen kann. Sollte durch die Normierung 0/0 auftreten handelt es sich um eine symmetrische Verteilung, da der Abstand gleich groß ist (siehe oben).

Ps.: Ich bin aber kein Mathematiker, …
#8 Karl-Heinz
Graz
17. Mai 2016

Grenzwertberechnung wenn IQR –> 0 strebt

Ist die Verteilung exakt symmetrisch, dann ist der Zähler der Gleichung g_25 exakt 0.
Damit reduziert sich die Geleichung g_25 (exakt symmetrisch) auf g_25 = 0/IQR.
Für lim IQR –> 0 ist der Grenzwert dann 0 (hebbare Unstetigkeit).

Diese Frage zu einer statistischen Formel wird mir im Rückblick vermutlich noch ziemlich peinlich sein

Kommentare (8)

Über den Autor

Grundlagen der Statistik – die Blogserie

Meistgelesene Beiträge

Blogroll

Arbeits-Weblinks

Gastbeiträge

Bücher (Schleichwerbung)

Neueste Beiträge

Frei nutzbare Online-Repositorien für wissenschaftliche Publikationen und Forschungsdaten

Von Wikis, Screencasts und Zoom-Vorlesungen – ein Erfahrungsbericht zum „Corona-Semester“

Lichtverschmutzung in “Discover Space” (Brøderbund, 1992)

Wie lässt sich das Benfordsche Gesetz mit Excel demonstrieren?

Racial Profiling und der Satz von Bayes

Letzte Kommentare

Archive

Diese Frage zu einer statistischen Formel wird mir im Rückblick vermutlich noch ziemlich peinlich sein

Kommentare (8)

Abonnieren

Über den Autor

Grundlagen der Statistik – die Blogserie

Meistgelesene Beiträge

Blogroll

Arbeits-Weblinks

Gastbeiträge

Bücher (Schleichwerbung)

Worum geht es hier?

Neueste Beiträge

Frei nutzbare Online-Repositorien für wissenschaftliche Publikationen und Forschungsdaten

Von Wikis, Screencasts und Zoom-Vorlesungen – ein Erfahrungsbericht zum „Corona-Semester“

Lichtverschmutzung in “Discover Space” (Brøderbund, 1992)

Wie lässt sich das Benfordsche Gesetz mit Excel demonstrieren?

Racial Profiling und der Satz von Bayes

Letzte Kommentare

Archive