Während wir alle noch auf das perfekte Modell warten, bleibt die Frage, was wir bis dahin machen? Man kann natürlich mit der grossen Variabilität der Modelle leben und einfach mit den Achseln zucken. Aber vielleicht gibt es ja einen systematischen Weg, um herauszufinden, welches Modell besser ist und welchem man also mehr vertrauen kann? Die Idee besteht schlicht darin, ein objektives Ranking zu erstellen in der Annahme, dass wer gestern viele Fehler gemacht hat, es wahrscheinlich morgen auch machen wird. In diesem Sinne hätte man eben aus den Fehlern von gestern gelernt und würde sich eben auf die “besseren” Modelle stützen.
Leider steht dieser natürlichen Herangehensweise zwei Hindernisse im Wege. Erstens, ein politisches Hinderniss. Schliesslich haben sich alle ganz doll angestrengt die Deadlines des IPCC zu verfolgen und es war ein wichtiges Ziel eben auch ein russisches oder chinesisches Modell im IPCC Prozess dabei zu haben. Zweitens, ein wissenschaftliches. Was sich nämlich so natürlich anhört (Ranking der Modelle) ist nämlich gar nicht so einfach. Was soll ein Modell eigentlich wofür können? Muss es, um den Einfluss des Klimas im Jahre 2050 auf die Krötenwanderungen in der Lüneburger Heide , wirklich die globale Temperatur gut berechnen können? Und wenn denn die globale Temperatur jetzt mal das Target sein soll, sind eigentlich die “guten” Modelle wirklich sinnvoll zu definieren? Reto Knutti überschrieb einen sehr schönen Artikel zu dieser Problematik passend mit der Überschrift: “The end of model democracy?”.
Bild 1: Abschneiden der verschiedenen Modelle über 20 Jahresabschnitte. Links wurden die interdekadischen (20 Jahre) globalen Anomalien und rechts die Absoluttemperaturen zur Beurteilung herangezogen.
Klimamodelle werden getunt, d.h. eine Reihe von Parametern, deren Wert nicht durch direkte Beobachtungen weiter eingeschränkt werden kann, werden mit viel Erfahrung und Spucke auf einen Wert festgelegt, der eine möglichst “gute” Übereinstimmung mit typischerweise der beobachteten Klimatologie von 1961-1990 hat. “Gute” steht in Anführungszeichen, weil jede Modellierergruppe einen Mix recht unterschiedliche Ziele anstrebt (tropische Temperaturen, Nord-Süd Temperaturgradient, Monsunniederschlag, etc. etc.) und jede etwas anderes unter “Gut” versteht. Die Modellen werden hingegen nicht auf die Klimaentwicklung der letzten 1000 Jahre oder gar längerer Zeiträume optimiert, wie man das manchmal lesen kann. Das ist zuerst mal gar nicht möglich und dann auch nicht wünschenswert (schliesslich will man die Modelle ja möglichst unabhängig gegen möglichst verschiedene Klima-Situationen testen).
Bei den letzten 100 Jahren ist die Situation etwas komplizierter. Während ich nachwievor der Meinung bin, dass niemand die Modelle auf die Klimaentwicklung zwischen 1900 und heute bewusst getunt hat (Liege ich falsch? Und wenn ja, woher weiss man das?), so hat Jeffrey Kiehl doch herausgefunden, dass es einen Zusammenhang zwischen Klimasensitivität der im IPCC verwandten Modelle und angenommenen Aerosol-Forcing gibt. Mit einfachen Worten: je geringer die Klimasensitivität umso grösser negativer das Aerosolforcing Je kleiner/groesser die Klimasensitivitaet umso groesser/kleiner das Gesamtforcing und umso kleiner/groesser der negative Beitrag des Aerosolforcings (welches insbesondere in der ersten Hälfte des 20ten Jhd eben sehr grosse Unsicherheiten hat). Kommen wir aber zurück zum Problem des Modell-Rankings. Kann man überhaupt so etwas sinnvoll aufstellen?
Bild 2: Resultat des Ensembles der IPCC Modelle, unten fuer die globalen T-Anomalien, oben für die Absoluttemperaturen.
Ian Macadam und Ko-autoren versuchten es. Sie formulierten folgendes Kriterium: Der Bewertungszeitraum liegt zwischen 1900 und 2000 und das “Target” ist die globale oder regionale (EU oder USA) Temperatur. WENN ein Modell über einen Zeitabschnitt von 20 Jahren gut abschneidet und WENN dieses Abschneiden etwas über die Qualität des Modells aussagt, DANN sollte dieses Modell auch in den darauffolgenden 20 Jahren gut abschneiden. Wenn hingegen aus dem “guten” Abschneiden in vorherigen Dekaden nichts für die folgenden folgt, dann kann man so eben kein sinnvoolles Ranking erstellen.
Das Ergebnis ist relativ frustrierend. Als erstes schauten sich die Autoren die Qualität der simulierten Temperatur-Anomalien an. Fünf Abschnitte von je 20 Jahren wurden bewertet. Wie Bild 1 gut erkennen lässt, streut die Qualität der einzelnen Modelle von 20 Jahresabschnit zu 20 Jahresabschnitt enorm. Die meisten der Modelle sind mal unter den ersten 3 und mal unter den letzten drei. Keine Chance daraus ein sytematisches Ranking zu erstellen.
Die Geschichte ändert sich allerdings, wenn man die Absolut-Temperaturen und nicht die interdekadischen Anomalien wie oben betrachtet. Die Modelle sind deutlich geordnet und die ersten vier Modelle (GISS, Hadley Center und zwei Modelle des MPI Hamburg) schlagen etwa alle anderen bei weitem und über jeden der 5 Zwanzigjahres-Abschnitte. Warum ist das so? Die Antwort ist eigentlich recht trivial und zeigt Bild 2. Die Modelle sind in ihren Bemühungen durch Tuning sich den beobachteten Absoluttemperaturen zu nähern unterschiedlich weit gekommen und diese vier beispielsweise schlagen alle anderen praktisch immer. Hingegen ist das Verhältnis von Signal zu Rauschen bei den 20-jährigen Anomalien sehr schlecht. Die jedem Modell eigene Klimavariabilität ist deutlich grösser als das durch den Mix aus Vulkanausbrüchen, Treibhausgasen und vielleicht Sonnenaktivität vorgegeben Forcing.
Letztlich stellt dieses nicht wirklich überraschende Ergebniss das, was wir über dekadische Variabilität wissen, nur noch einmal auf andere Art dar. Aus einem Ensemble von Modellen ein irgendwie gewichtetes “besseres” Ensemble zu machen bleibt schwierig und man sollte vermeintlich “schlechte” Modelle nicht voreilig ausschliessen. Auch ein “schlechtes” Modell kann die Statistik des Ensembles verbessern, wenn die “guten” Modelle falscherweise zu sehr übereinstimmen.
Ferner kommt es darauf an, für welche Projektion man eigentlich ein Modell benötigt: Globale Temperatur, El Niño, Niederschlag im Sahel? Jedesmal muss aufs Neue eine Metrik entwickelt werden, die einen sinnvollen Zusammenhang zwischen dem Beobachtungszeitraum, der zur Erstellung einer Modellgewichtung dient, und den Projektionen herstellt. “Sinnvoll” heisst eben, dass das jeweilige Rankingkriterium auch wirklich etwas über die Qualität der Projektion aussagen muss (das ist z.B. oben bei der interdekadischen Variabilität der globalen Temperatur nicht der Fall).
Und schliesslich noch ein letzter Gedanke. Bei jedem neuen IPCC Bericht treten die Modellgruppen aus aller Welt immer mit ihren “neuesten” Modellen an. Das hat seine Logik hauptsächlich in all der Arbeit, die in die Beschreibung von “neuen” Prozessen (wie eine Kopplung des Klimas mit dem Kohlenstoffkreislauf, das neueste “Must have” der Modelliererszene) hineingesteckt wurde. Es hat aber keine Rechtfertigung in einer objektiven Beurteilung der alten im Vergleich zu den neuen Modellen. Laufend wird also ein Ranking aufgestellt, einzig auf der Basis des Alters eines Modells. Kein besonders objektives Kriterium.
Kommentare (53)