Je älter man ist, desto höher ist statistisch gesehen das Risiko, zu sterben. Das ist trivial. Deswegen interessiert beim Vergleich von Sterberaten, z.B. zwischen zwei Landkreisen, oft nicht allein die rohe Sterberate, also die Zahl der Gestorbenen bezogen auf die Einwohner/innen, sondern man möchte die Sache auch altersbereinigt haben. Dann sieht man, ob sonst noch etwas im Spiel ist.

Alte und junge Regionen und eine etwas unbekannte Geschichte des kalten Krieges
Ein Beispiel: Im Landkreis Wunsiedel im nordöstlichen Oberfranken lag die rohe Sterberate 2010 bei 1.427,6 je 100.000 Einwohner/innen, im Landkreis Freising dagegen, Nähe München, lag sie bei 710,4 je 100.000 Einwohner/innen. Der Anteil der Bevölkerung, die 65 Jahre und älter ist, lag 2010 im Landkreis Wunsiedel bei 25,4 %, im Landkreis Freising bei 15,3 %. Wunsiedel ist der älteste Landkreis Bayerns, Freising der jüngste. Kein Wunder also, dass die Sterberate in Wunsiedel höher ist als die in Freising.

Aber das ist noch nicht die ganze Geschichte. Man kann jetzt altersbereinigte Sterberaten berechnen, d.h. eine Altersstandardisierung vornehmen. Bei einer Altersstandardisierung anhand der sog. „alten Europastandardbevölkerung“ errechnet sich für Wunsiedel eine altersbereinigte Sterberate von 620,9 je 100.000, für Freising kommt man auf 507,3 je 100.000. Das sieht schon besser für Wunsiedel aus, aber es hat offenkundig auch altersbereinigt eine höhere Sterberate, für die demnach andere Ursachen verantwortlich sein müssen. In diesem Fall spielen die sozioökonomischen Rahmenbedingungen der Region eine wichtige Rolle. Nordostbayern war lange Zeit „Zonenrandgebiet“, wie es so schön hieß, eine Region ohne wirtschaftliches Hinterland. Schlechtere sozioökonomische Lage bedeutet höhere Sterblichkeit, ein altes Gesetz der Sozialepidemiologie. In den Sterberaten Nordostbayerns machen sich die Folgen der europäischen Teilung bis heute bemerkbar.

Altersstandardisierung, leicht gemacht
Das war Geschichte, aber immer noch nicht die, die ich eigentlich erzählen will. Bevor das kommt, muss ich ein paar trockene Vorübungen machen und die Verfahren der Altersstandardisierung erklären. Man unterscheidet dabei im Wesentlichen zwei Methoden, die direkte und die indirekte Altersstandardisierung. Bei der direkten Altersstandardisierung gewichtet man die altersspezifischen Sterberaten einer Untersuchungspopulation mit den altersspezifischen Kopfzahlen einer Standardbevölkerung. Damit unterstellt man für die Vergleichsregionen einen gleichen Altersaufbau. Für viele Zwecke, z.B. für europäische Vergleiche, ist die schon erwähnte „alte Europastandardbevölkerung“ gebräuchlich. Man kann aber z.B. auch die deutsche Bevölkerung des Jahres 2010 nehmen, oder die bayerische des Jahres XY. Es kommt nur darauf an, für alle Vergleichsregionen die gleiche Standardbevölkerung zu nehmen.

Altersstandardisierung1

Bei der indirekten Altersstandardisierung geht man in gewisser Weise umgekehrt vor. Man nimmt die altersspezifischen Sterberaten einer Standardpopulation, z.B. der bayerischen, und gewichtet diese mit den altersspezifischen Bevölkerungszahlen der Untersuchungspopulation, z.B. des Landkreises Freising. Daraus ergeben sich „erwartete Sterbefälle“, nämlich die Zahl der Sterbefälle, die in Freising zu erwarten wäre, wenn in Freising mit seinem Altersaufbau die gleichen Sterberaten bestehen würden wie in Bayern. Setzt man dann die reale Zahl der Sterbefälle in Freising mit der so berechneten erwarteten Zahl ins Verhältnis, erhält man die „Standardisierte Mortalitätsratio (SMR)“. Sie gibt an, wie sich die Sterblichkeit Freisings zu der Bayerns verhält. Ist die Sterblichkeit gleich, beträgt die SMR 1. Wäre sie in Freising höher als in Bayern, läge die SMR über 1, andernfalls unter 1. Die Abweichung von der 1 lässt sich als prozentuale Abweichung der Sterblichkeit Freisings von der Bayerns interpretieren.

Altersstandardisierung2

Im Jahr 2010 lag die SMR Freisings bei 0,95, d.h. Freising hat altersbereinigt eine um 5 % geringere Sterblichkeit als Bayern. Für den Landkreis Wunsiedel errechnet sich eine SMR von 1,12, also eine um 12 % höhere Sterblichkeit als im bayerischen Durchschnitt.
Man erkennt sofort, wo der Vorteil der indirekten Altersstandardisierung liegt: Man hat für die SMR die Altersverteilung der Sterbefälle in Freising nicht verwendet. Bei kleinen Fallzahlen oder einer unsicheren Altersverteilung der Fälle ist das die Methode der Wahl. Der Nachteil liegt ebenfalls auf der Hand: In der SMR ist der Altersaufbau Bayerns bereinigt, d.h. der SMR liegt der Altersaufbau Freisings zugrunde. Das hat zur Folge, dass die indirekte Altersstandardisierung immer nur im Zweierverhältnis Untersuchungspopulation – Standardpopulation zu einem altersbereinigten Vergleich führt. Die SMR Freisings und die SMR Wunsiedels kann man eigentlich so nicht vergleichen, es sei denn, beide Landkreise haben nahezu den gleichen Altersaufbau. Man muss nicht lange googeln, um herauszufinden, dass das oft nicht beherzigt wird.

Altersstandardisierung, schwer gemacht
Wenn man nun zwei Landkreise altersstandardisiert erst nach einer Methode vergleicht, dann nach einer anderen Methode, sollte das zu gleichen Ergebnissen führen. Und weiter: Wenn man bei der direkten Altersstandardisierung, die die Methode der Wahl zum Vergleich vieler Regionen ist, sollten Rangreihen von Landkreisen unabhängig von der Wahl der Standardbevölkerung sehr hoch korrelieren. Kleine Abweichungen der Rangordnung wird man methodenbedingt immer akzeptieren, aber es sollte keine allzu großen Sprünge in der Rangordnung geben. Schließlich soll die Auskunft, ob die Sterberate, die Krebshäufigkeit oder die Unfallrate in einer Population höher ist als in einer anderen, primär nicht von der gewählten Methode der Altersstandardisierung abhängen.

Hier beginnt nun der wirklich spannende Teil der Sache. Im Rahmen eines Methodenprojekts zur Altersstandardisierung habe ich gerade eine Masterarbeit betreut, die untersucht, wie gut die Rangordnungen der bayerischen Landkreise und kreisfreien Städte – bezogen auf die Sterblichkeit – bei verschiedenen Methoden der Altersstandardisierung übereinstimmen. Das Ergebnis ist etwas beunruhigend, weil sich die Ausgangsthese, dass manche Landkreise methodenabhängig recht große Rangsprünge machen, bestätigt hat. Die Ergebnisse der Masterarbeit werden demnächst auf der Jahrestagung der Deutschen Gesellschaft für Sozialmedizin und Prävention zur Diskussion gestellt. Das Methodenprojekt wird in Zusammenarbeit mit einem statistischen Institut noch weitergeführt – wer gute Ideen dazu hat, ist herzlich eingeladen, sie hier zu äußern.

Kommentare (12)

  1. #1 CM
    15. August 2013

    Hm, gestern erst habe ich Bullshit aus einer Gleichung bekommen, weil mir den halben Nachmittag nicht auffiel, dass ich die falsche Größenordnung für einen Paramter reingesteckt habe – das Resultat fehlerhafter Normalisierung.

    Aber: Was ist denn die spezifische Fragestellung? Und was genau ist das Mass für die Übereinstimmung? Ausschließlich Rangkorrelation?
    Welche Behandlung erfuhren die Rohdaten (z. B. Transformationen)? Gibt es fehlende Datenpunkte?

    NB: Wenn ich mit Studierenden in ähnlichen Situationen spreche, frage ich auch erst *immer* ganz dumme Fragen – die Antworten helfen später Missverständnisse vermeiden.

  2. #2 CM
    15. August 2013

    Oh, mir fällt noch was ein:
    Gibt es Qualitätsindikatoren für die Zahlen? Sind z. B. die kleinen Gemeinden unsicherer und “hilft” also eine Wichtung?

    Ich spekuliere mal, dass die Altersstratifikation bei kleinen Gemeinden unsicherer ist, als bei großen. Einfach weil die Stichprobe kleiner ist (das hängt vom Erhebungsverfahren ab, aber das wollte ich nicht auch noch erfragen – so ein Student darf auch etwas selber recherchieren 😉 ). Ggf. helfen hier resampling Techniken (da genaue Tipps zu geben, würde einen ziemlich guten Überblick über die Daten erfordern, aber mir kommt in den Sinn bootstrapping zur Ermittlung der Konfidenzintervalle zu verwenden – u. U. ist das aber Unsinnn).

  3. #3 Joseph Kuhn
    15. August 2013

    @ CM: Das sind alles gar keine “dummen Fragen”, genau darum geht es, manches davon ist schon in der Masterarbeit ausgearbeitet, manches muss noch, wie gesagt, mit statistischem Know How vertieft werden.
    1. Was ein gutes Maß der Übereinstimmung wäre, bzw. auch, was einen “Goldstandard” liefert, an dem sich solche Rangordnungen messen lassen (bei Sterberaten käme die Lebenserwartung infrage), ist in der Tat zu klären.
    2. Die Rangkorrelation alleine reicht nicht. Ränge sind ordinal skaliert, das vergrößert sozusagen optisch die Problematik, weil auch sehr kleine Variationen in den metrisch skalierten altersstandardisierten Kennziffern ja Rangunterschiede generieren.
    3. Fehlende Datenpunkte gibt es zwar nicht, wenn damit gemeint ist, ob jeder Landkreis einen Wert hat. Aber, wie richtig beim Stichwort Altersstratifizierung angesprochen, in kleinen Landkreisen gibt es in den jüngeren Altersgruppen im Laufe eines Jahres nur wenige Sterbefälle und wenn man die Altersgliederung fein genug macht, auch mal keinen. Das verzerrt die direkte Altersstandardisierung, deswegen würde man hier indirekt standardisieren. Oder man muss mehrere Jahre aggregieren. Interessant wäre da z.B. eine praktikable Regel, wie die einzelnen Altersgruppen für eine direkte Standardisierung besetzt sein sollten. Hinzu kommt, dass die alte Europastandardbevölkerung (eine im Vergleich zur realen Bevölkerung sehr junge Bevölkerung) gerade diese jungen Jahrgänge stark gewichtet.
    4. Mit vielen Problemen, die hier auftreten, kann man gut umgehen, wenn man die Zeit hat, sich ausführlich mit den Ausgangsdaten zu beschäftigen (bzw. überhaupt Zugang zu den Ausgangsdaten hat), in Berichterstattungsroutinen ist das nicht immer der Fall.

  4. #4 CM
    15. August 2013

    Hm, letztlich ist so eine “Ferndiagnose” ohne Detailreichtum immer schwierig – und mit auch. Ich denke darüber nach, ob hier nicht multiples logrank-Testen (vgl. https://cran.r-project.org/web/packages/exactRankTests/exactRankTests.pdf ) sinnvoll wäre. Ggf. im Zusammenhang mit bootstrapping. Aber letztlich hängt die Möglichkeit und Sinnhaftigkeit eben von der Qualität und Art der Daten ab. So, kann ich allenfalls Stichwort ins Web schreiben / in den Raum werfen. Jedenfalls könnte man nicht-signifikante Differenzen zwischen zwei Gruppen (Gemeinde- und Alterskohorte) dann in einem Rang gruppieren.

    Wenn man aber die beiden Standardisierungsmethoden im Fokus behalten mag, wäre die Erweiterung um eine Resamplingtechnik – sorry, dass ich darauf rumreite – in meinen Augen (bisher, denn ich kenne, wie gesagt, die Daten nicht) eine sehr heisse Möglichkeit
    – die Rangfolgen zu stabilisieren
    – Konfidenzintervalle für die Korrelationskoeffizienten zu schätzen. (Wird eigentlich nach Spearman oder Kendall vorgegangen? Kendall ignoriere ich bei meinen Daten immer, aber hier könnte es u. U. etwas robuster sein, oder? — Und noch ein Schluß ins Blaue, ich verschreibe hier meine ganze Kredibilität.)

  5. #5 Joseph Kuhn
    15. August 2013

    @ CM:

    “ich verschreibe hier meine ganze Kredibilität”

    Ich bin kein Statistiker, aber so weit ich folgen kann, bisher nicht 😉

    Neben dem Umgang mit dem Zufall ist die arithmetische “Mechanik” der Standardisierungsverfahren ein zweiter wichtiger Aspekt. Wenn bei gleichen Ausgangsdaten die direkte Standardisierung mit der alten Europabevölkerung und die direkte Standardisierung mit einer realistischen neueren Bevölkerung (z.B. Deutschland 2010) dazu führt, dass manche Landkreise doch deutliche Rangsprünge machen, ist das einfach nicht schön. Am besten würde man vermutlich die alte Europastandardbevölkerung aufgeben, aber sie ist eben auch in dem Sinne “Standard”, dass sie überall verwendet wird. Genauso wie der “Weltstandard” in internationalen Vergleichen.

  6. #6 G.W.
    16. August 2013

    Guten Tag Herr Kuhn,

    eine mathematische Analyse des Problems, das m.E. kein eigentlich statistisches ist, habe ich an Ihre Dienst-email-Adresse geschickt. Es waren zu viele Formeln für den Blog-Editor. Vielleicht ist die Analyse hilfreich.

    Mit den besten Grüßen

    • #7 Joseph Kuhn
      16. August 2013

      @ G.W.: Danke, schau ich mir so bald wie möglich an. Hoffentlich sind es nicht auch zu viele Formeln für meinen zerebralen Editor.

  7. #8 C.E.
    20. August 2013

    Hallo Herr Kuhn,

    ich bin mir nicht ganz sicher, ob die reine Korrektur auf gleiche Altersstrukturen ausreicht. Bzw. hat die Masterarbeit ja genau das aufgezeigt, daß es nicht auszureichen scheint.

    Die Korrektur auf gleiche Altersstrukturen gleicht Wanderungsbewegungen aus (im vereinfachten Beispiel wandern junge Leute aus dem Kreis Wunsiedel in den Kreis Freising). Meines Erachtens erfolgt eine solche Wanderung jedoch nicht nur quantitativ, sondern hat auch qualitative Auswirkungen (Wegzug besonders fitter/gesunder Individuen innerhalb einer Altersklasse). Ich bezweifle, daß dies durch eine allgemeine Korrektur um sozioökonomische Aspekte erfaßt werden kann, es liegen wahrscheinlich starke Wechselwirkungen zwischen Altersabschnitt und Wanderungsbewegungen vor.

    Und noch eine Idee zu Nr.2 aus #3: Kleine metrische Unterschiede generieren große ordinale Rangunterschiede. Mein erster vollkommen unbedarfter Ansatz wäre hier, aus dem Datenmaterial der metrischen Daten Bereiche zu bestimmen, die als “ausreichend ähnlich” definiert werden, um den gleichen Rang zu besitzen. Demnach gäbe es dann mehrere Landkreise in den einzelnen Rängen und wesentlich weniger Anzahl der Ränge.

  8. #9 Joseph Kuhn
    21. August 2013

    @ C.E.:

    “ob die reine Korrektur auf gleiche Altersstrukturen ausreicht”

    Ausreicht wofür? Die Altersstandardisierung kann lediglich Unterschiede in der Altersstruktur der Bevölkerung ausgleichen. Sie ist ein sehr einfaches Verfahren. Fragestellungen zur Aufklärung komplexerer Zusammenhänge muss man mit anderen Methoden untersuchen. Wenn eine Wanderungsbewegung z.B. dazu führt, dass selektiv besonders gesunde junge Menschen von Wunsiedel nach Freising abwandern und weniger gesunde junge (!) Menschen zurückbleiben, kann das die Altersstandardisierung nicht ausgleichen. Wenn im Durchschnitt normal gesunde junge Menschen abwandern und eben ältere (!), kränkere Menschen zurückbleiben, schon.

    “Bereiche zu bestimmen, die als “ausreichend ähnlich” definiert werden”

    Dazu können z.B. inhaltlich oder formal definierte Klassen dienen (wie sie z.B. in kartografischen Darstellungen zur Farbabstufung angewandt werden), oder statistisch definierte Konfidenzintervalle, ggf. verfeinert durch Dinge wie räumliche Autokorrelationen, weil sich benachbarte Kreise oft ähnlicher sind als entfernte Kreise oder andere Überlegungen.

    Diese Aspekte spielen bei den Rangordnungsproblemen, die hier angesprochen wurden, aber eigentlich keine Rolle. Hier geht es darum, dass Verfahren, die auf der Basis gleicher Ausgangsdaten zu (fast) gleichen Aussagen führen sollten, dies nicht bzw. nicht auf den ersten Blick tun.

    G.W. hat in dem in seinem Kommentar erwähnten Mail anhand einer Transformation der Formel für Ratenverhältnisse auf einige Aspekte hingewiesen, die dabei rein von der mathematischen Konstruktion der Standardisierungsverfahren her wirken. Die Problematik an sich wird in der Literatur auch thematisiert, aber ihre Folgen für manche Praxisbereiche, z.B. die Darstellung von Gesundheitsindikatoren in gesundheitspolitischen Informationssystemen, sind nicht ganz klar.

  9. #10 Andi
    19. November 2013

    Hier kann man die Sterberate berechnen lassen:
    https://www.hilfreiche-tools.de/biologie/sterberate-berechnen.html

  10. #11 Joseph Kuhn
    21. November 2013

    @ Andi: Nichts für ungut, aber der Link hat mit dem Thema hier nichts zu tun. Dieser “Biologie-Rechner” teilt nur die Fälle durch die Bevölkerung und das dann ggf. noch einmal durch ein Mehrfaches eines Bezugszeitraums. Dafür reicht, wenn’s bei krummen Zahlen nicht im Kopf geht, der einfachste Taschenrechner.

  11. […] im Zeitverlauf werden für viele Zwecke „altersstandardisierte Sterberaten“ berechnet, auch das war hier auf Gesundheits-Check schon Thema. Die Altersstandardisierung soll Vergleiche der Sterberaten unabhängig vom Altersaufbau der […]