Drüben bei Geograffitico hat Jürgen ja vor kurzem gefragt, ob Klausuren noch zeitgemäß sind. Ich will hier sogar noch einen Schritt weitergehen und fragen, ob sie es je waren oder ob sie ein Beispiel für eine klassische Denkfalle (oder sogar drei) sind, in die wir gern hineintappen.
Der Irrtum der eindimensionalen Quantifizierbarkeit
Der Sinn einer Klausur ist ja, zu messen, was eine Schülerin* oder Studentin gelernt hat. Das Wissen als solches ist natürlich ziemlich komplex – nehmen wir als Beispiel ein bisschen Oberstufenmathematik wie Integralrechnung, dann gibt es vielleicht Formeln zu lernen (wie berechne ich die Stammfunktion eines Polynoms) ein paar nette Sätze (Mittelwertsatz oder Hauptsatz der Differential- und Integralrechnung), Flächenberechnungen, Anwendungsaufgaben etc. Wir packen ein entsprechendes Sammelsurium an Aufgaben in eine Klausur, verteilen die Punkte entsprechend (dazu gleich mehr) und lassen die Schülerinnen dann versuchen, die Aufgaben in einer bestimmten Zeit zu lösen. Das Ergebnis werten wir dann aus und jede bekommt eine Note.
*Ja, auch heute wieder im generischen Femininum, wie immer, ja, regt euch drüber auf, wenn ihr müsst, aber bitte hier.
Wenn man die Klausur ausarbeitet, dann muss man wie gesagt auch Punkte verteilen. Auch da sieht man, dass die scheinbar objektive Zahl, die am Ende herauskommt, eben auch willkürlichen Entscheidungen unterliegt – gebe ich für die einfache Antwort einen Punkt? Oder einen halben? Stelle ich viele Aufgaben, so dass die Zeit knapp ist (und diejenigen einen Vorteil haben, die schnell arbeiten oder ganz banal schnell schreiben können) oder lasse ich so viel Zeit, dass auch die, die gern ein wenig nachdenken oder nicht alles auswendig gelernt haben sondern sich manche Sachen während der Klausur selbst herleiten, genügend Zeit haben? Stelle ich schwere oder leichte Aufgaben oder mische beide?
An Hand der Note können wir dann etwas über das Wissen aussagen – aber tatsächlich nur sehr wenig. Eine 3 zum Beispiel kann dadurch zu Stande kommen, dass die Schülerin brav alle Formeln auswendig gelernt und richtig angewandt hat, oder dadurch, dass sie zwar nichts gelernt hat, aber einige der Textaufgaben auf kreative Weise gelöst hat. Oder nehmen wir an, zwei Schülerinnen haben beide eine 4 bekommen. Da in vielen Klausuren 50% für eine 4 ausreichen (jedenfalls an der Uni), ist es also denkbar, dass das Wissen der beiden vollkommen disjunkt ist und die eine genau das weiß, was die andere nicht weiß.
Diese sehr komplexen Sachverhalte versuchen wir in eine einzige Zahl zu packen – eben die Note. Dass dabei viel Information auf der Strecke bleibt, ist eigentlich offensichtlich. Die Annahme, man könne Wissen als eine einzige Zahl fassen, so dass man genau sagen kann, welche Schülerin wie viel besser ist als welche andere, ist eigentlich offensichtlich falsch. (Deswegen versucht man ja auch in Grundschulen, mit ausformulierten Zeugnissen zu arbeiten – was zwar besser ist, wenn man z.B. liest “rechnet sicher im Zahlenraum bis 100, hat aber Schwierigkeiten bei der schriftlichen Addition”, dann weiß man mehr als wenn da nur “2” steht, aber auf Grund der großen Zahl an Schülerinnen, die eine Lehrerin hat, endet es in vielen Fällen dann doch mit Standardsätzen, weil auch Lehrerinnen nur endlich viel Zeit haben.)
Ein Problem ist hier also die Annahme, dass wir eine einfache Zahl verwenden können, um “Wissen” zu beschreiben. Und das ist in anderen Bereichen noch wesentlich schwieriger – wenn ich zum Beispiel schriftliche Texte aus meinem Präsentationsworkshop bewerte, lässt eine mäßige Note nahezu gar keine Rückschlüsse mehr zu, was denn nun das Problem war: Schlechte Formulierungen? Unlogische Gliederung? Sprunghaftes Niveau? Zwei Texte mit gleicher Note zum selben Thema können vollkommen unterschiedlich ausfallen.
Die leichtere Frage
Was wir eigentlich tun, wenn wir eine Klausur bewerten, ist ähnlich zu dem, was bei Daniel Kahnemann (“Thinking – fast and slow”) “Aswering an easier question” heißt. Eigentlich wollen wir die gesamte Komplexität des Wissens einer Schülerin bewerten. In einer Zeit, wo es vielleicht nur eine Handvoll Schülerinnen pro Lehrerin gab, war das sicher einfach – jede Lehrerin wusste genau, was ihre Schülerinnen konnten und was nicht. (So ist es heute noch z.B. bei Doktorarbeiten – da weiß man als Betreuerin ziemlich genau, was am Ende rauskommt, weil man die Doktorandin und ihre Arbeit über Jahre intensiv begleitet hat.)
Mit vielen Schülerinnen, die man bewerten muss, ist das aber so einfach nicht mehr möglich. Und deswegen sucht man eben nach einer anderen Möglichkeit, das Wissen zu quantifizieren und landet bei der Idee einer Prüfung. Diese findet unter künstlichen Bedingungen statt, die nicht unbedingt dem entsprechen, was die Schülerinnen wirklich an Wissen und Fähigkeiten brauchen (darauf zielte ja auch Jürgens Text ab), aber sie sind eben einfach durchzuführen und auszuwerten.
Wir ersetzen also die schwierige Frage (“Was weiß die Schülerin und wie ist ihr Wissen zu bewerten”) durch eine deutlich einfachere (“Wie schneidet sie bei der Klausur ab?”)
Das Messproblem
Aus der Quantenmechanik wissen wir, dass die Messung das Ergebnis beeinflussen kann. Das ist das so genannte Messproblem. Ein ähnliches Problem (naja, die Ähnlichkeit ist nur sehr entfernt…) haben wir bei der Klausur auch. Wenn wir nämlich am Ende eine Klausur schreiben, um daraus eine Note abzuleiten, dann müssen wir die Schülerinnen natürlich auch auf die Klausur vorbereiten. Plötzlich geht es nicht mehr primär um die Vermittlung all des Wissens, das wir eigentlich gern vermitteln wollen, sondern wir konzentrieren uns darauf, das zu vermitteln, was sich auch in einer Klausur abfragen lässt. (Ich versuche, mich zumindest ein wenig gegen diesen Trend zu sperren und halte ab und zu auch mal meinen “Warum es in dieser Vorlesung nicht darum geht, Sie auf eine Klausur vorzubereiten”-Vortrag, aber ganz vermeiden lässt sich so etwas natürlich nicht, das wäre dann wieder unfair den Studis gegenüber.)
Was wir beibringen, ändert sich also so, dass wir uns darauf konzentrieren, genau die Dinge beizubringen, die am Ende auch abfragbar sind. Kreative Lösungen, lange komplexe Gedankenketten, die sich in einer Klausur schwer unterbringen lassen, die Fähigkeit, eine Lösung in einem Dialog zu finden oder sich fehlendes Wissen per Recherche anzueignen, können dann dabei schon einmal unter den Tisch fallen. (Auch das hat Jürgen ja angemerkt.) Hinzu kommt dann noch, dass das Korrigieren einer Klausur ja auch Zeit kostet – die Versuchung ist also groß, die Aufgaben so zu stellen, dass sie sich schnell korrigieren lassen, auch wenn dabei dann vielleicht solche Aufgaben, die viel darüber aussagen, ob jemand etwas wirklich verstanden hat, unter den Tisch fallen.
Klausuren beruhen also letztlich auf einer Verkettung von drei fragwürdigen Schritten: Wir nehmen an, dass die Größe, die uns interessiert, sich mit einer Zahl beschreiben lässt, wir versuchen diese Annahme zu realisieren, indem wir uns ein entsprechendes Messverfahren ausdenken und müssen dann unsere Vorgehensweise so ändern, dass sie diesem Messverfahren angemessen ist.
Aktien
O.k., ich geb’s zu, von Aktien verstehe ich nicht viel (für Werte von “nicht viel” gleich “praktisch nichts”). Aber ich sehe hier einen ähnlichen Mechanismus wirken. Aktuell dienen Aktien ja letztlich dazu, ein Unternehmen zu bewerten. Dahinter steckt schon mal die Annahme, dass eine solche eindimensionale Bewertung möglich ist – Fragen wie Umweltverträglichkeit, Arbeitsklima oder zusätzliche Sozialleistungen für Mitarbeiterinnen zeigen schon, dass das durchaus eine problematische Annahme ist.
Dann geht es um die Frage, wie man den finanziellen Wert des Unternehmens feststellt. Letztlich natürlich dadurch, dass man prüft, was Menschen bereit sind, für das jeweilige Unternehmen (bzw. Anteile an diesem Unternehmen) zu bezahlen. Das führt dann aber dazu, dass es nicht mehr primär darum geht, was ein Unternehmen tatsächlich wert ist, sondern zunächst eher darum, was ich glaube, dass es wert ist. Aber da der Aktienkurs ja nicht durch mich allein gemacht wird, sondern durch alle, die mit Aktien handeln, muss ich mich für erfolgreiches Handeln nicht wirklich fragen, was die Aktie mir wert ist, sondern was ich glaube, dass sie den anderen wert ist. Diese anderen machen aber ja genau das Gleiche. Am Ende geht es also nicht mehr direkt um den Wert eines Unternehmens, sondern darum, was Leute glauben, dass andere Leute glauben, dass ein Unternehmen wert ist. Das sehen wir ja z.B. bei der VW-Aktie – da stehen in Wolfsburg und anderswo ja nicht plötzlich nur noch halb so viele Maschinen rum wie vor ein paar Monaten. (Ja, mir ist klar, dass diese Sicht des Aktienmarktes sehr vereinfacht ist – falls sie wirklich grob falsch sein sollte, beschwert euch in den Kommentaren.)
Auch andere Zahlen in der Wirtschaft, beispielsweise Indices, können unter dem Messproblem leiden. Mehr dazu findet ihr beim World Financial Review. Aber ehe ich noch mehr über Wirtschaft schreibe und noch mehr Wirtschaftsexpertinnen sich die Haare raufen, wechsle ich lieber schnell das Thema,
Rankings
Rankings, zum Beispiel von Unis, sind ja auch sehr beliebt. Auch sie unterliegen denselben Problemen. Da ist zum einen die Idee, man könne Unis entlang einer eindimensionalen Achse vergleichen. Um das Ranking zu erstellen, guckt man sich ja sehr viele Zahlen an (ähnlich wie es viele Klausuraufgaben gibt), gewichtet diese und bildet daraus ein Ergebnis. Dabei herrscht letztlich Willkür dabei, welche Zahlen ich wie heranziehe. Wie gewichte ich die Wohnsituation von Studis gegen die Qualität des Mensaessens oder die Wartezeit auf einen Platz in einem Labor? Für die einzelne mag dann am Ende die Gewichtung ganz anders ausfallen, als es ein Ranking vorgibt. Bei uns in Braunschweig zum Beispiel geht die Anerkennung von Kursen im Ausland meist recht problemlos – wenn ihr also ein halbwegs stressfreies Auslandssemester plant, dann seid ihr bei uns vielleicht besser aufgehoben als an einer Uni, die in anderen Bereichen besser punktet.
Und manche Dinge lassen sich vielleicht auch gar nicht oder nur schwer quantitativ erfassen. Wie ist die Lernatmosphäre an der Uni, wie wohl fühlt man sich dort? Klar, kann man mit Umfragen herauszufinden versuchen, aber auch hier sieht man schon, dass die Versuchung groß ist, die einfachere Frage zu stellen und eben diejenigen Dinge zum Ranking heranzuziehen, die man leicht quantifizieren kann. Wenn man sich nur auf Umfragen verlässt, dann läuft man auch Gefahr, dass z.B. die Uni gut abschneiden, an denen tendenziell eher gute Noten vergeben werden – was am Ende auch nicht zielführend ist, denn dann schlägt das dritte Problem zu, das Messproblem.
Die Leute, die an Unis arbeiten, sind ja auch nicht doof und gucken sich an, wo ihre Uni im Ranking steht und warum. Und wenn dann herauskommt, dass eine andere Uni besser abschneidet, weil dort z.B. bessere Noten vergeben werden, ist die Versuchung natürlich groß (nein, bei uns an der Tu gab es bisher keine Aufforderung, gute Noten zu vergeben), gleichzuziehen und die Klausuren einfacher zu machen (wie leicht das ist, haben wir ja oben gesehen). Klingt ja erst mal positiv – bis ihr dann in dem Auto sitzt, das von den Leuten konstruiert wurde, die an ihrer Uni wenig gelernt haben, weil es eine Noteninflation gab… Denn eigentlich ging es ja darum, an der Uni etwas beizubringen und nicht darum, Noten zu verteilen. Die Messung beim Ranking beeinflusst dann also wieder das, was an der Uni passiert.
Der Mechanismus, den ich für die Klausuren skizziert habe, ist also anscheinend gar nicht so selten: Wir wollen etwas Komplexes quantifizieren, um das zu tun suchen wir nach quantifizierbaren Messgrößen die mit dem, was uns eigentlich interessiert, hoffentlich eng zusammenhängen, die aber eben nicht identisch sind, und weil wir dann wissen, dass diese Messung so stattfindet, ändern wir unser Verhalten, um es an genau diese Messung anzupassen. Wahrscheinlich fallen euch noch deutlich mehr ähnlich gelagerte Beispiele ein – die könnt ihr ja gern in die Kommentare schreiben.
Kommentare (75)