In der kommenden Woche werde ich, zusammen mit etwa zwei Dutzend Kolleginnen und Kollegen aus dem Schreibkurs des Massachusetts Institute of Technology einen Stapel von Aufsätzen zu korrigieren haben, mit denen denen Studienanfänger ihre Fähigkeiten im akademischen Schreiben beweisen (müssen). Diese Freshman Essay Evaluation ist ein für praktisch alle angehenden Studenten vorgeschriebener Teil in ihrer Ausbildung, zu der eben auch gehört, dass sie befähigt werden sollen, sich in Wort und Schrift adäquat (was auch heißen soll: verständlich) auszudrücken. Und das heißt, dass zwei Dutzend Dozenten zwei Tage lang diese Aufsätze auswerten müssen – was sich, rein haushaltsplanmäßig, in runde zehntausend Dollar an Überstundenbezahlung übersetzen dürfte. Kann ich es da verdenken, dass mancher Uniplaner davon träumt, diesen zeit- und geldraubenden Job einem Computerprogramm zu überlassen?

Erst mal so viel: Dies ist

längst kein Traum

mehr. Die Hewlett-Foundation hat sogar einen Preis ausgelobt; das Siegerteam – Jason Tigg aus London, Stefan Henß aus Darmstadt und Momchil Georgiev vom amerikanischen National Weather Service – gewann 60.000 Dollar für ihre Einsendung. Es gibt sogar kommerzielle Softwareangebote, die dieses automatische Benoten von Aufsätzen zu einem Bruchteil der Kosten und einem noch winzigeren Bruchteil der Zeit erledigen können: 16.000 Aufsätze in 20 Sekunden soll beispielsweise der e-rater der Firma Educational Testing Service bewerten können.

Wenn es sich hier um so genannte “Multiple-Choice-Tests” handeln würde, dann hätte ich dagegen gar keine Bedenken. Sicher, auch bei solchen Tests kann ein menschlicher Auswerter manchmal Missverständnisse entdecken (und dem Studenten entsprechende Punkte trotzdem gut schreiben), die einem Automaten vielleicht durchrutschen würden, aber niemand wird behaupten, dass diese geringe Chance den Aufwand einer manuellen Aus- und Bewertung aufwiegen würde. Aber Aufsätze, bei denen es nicht nur um Inhalt, sondern auch um Stil und Ausdruck geht? Nun, die Anbieterseite ist überzeugt, dass die Robo-Leser hier nicht schlechter sind als menschliche Prüfer. Und sie können sich dabei sogar auf die Wissenschaft stützen: Eine Studie von Dr. Mark Shermis, Dekan der Erziehungwissenschaftlichen Fakultät der University of Akron (Ohio) wertete die Programme von neun kommerziellen Anbietern aus und kam zum Ergebnis, dass Mensch und Maschine hier etwa die gleichen Resultate erzielen.

Was erst mal vielleicht weniger zum Lob der Roboter als zum Tadel der Menschen gereicht. Aber andererseits – wenn den Bewertern nur ein paar Minuten pro Aufsatz bleiben (wieviel Zeit ich mir für wie viele Arbeiten nehmen kann, werden ich frühestens am Mittwoch erfahren), dann darf man sich nicht wundern, wenn nach Schema F verfahren wird.

Der Haken ist nur, dass diese automatischen Lese- und Bewertungsprogramme leicht hinters Licht zu führen sind, wie mein Kollege Les Perelman nachweisen konnte. Sie bevorzugen lange Sätze und komplizierte Wörter – ob diese dann auch einen Sinn ergeben oder faktisch korrekt sind, steht jedenfalls nicht auf diesem Blatt. “Dem e-Rater ist es egal, ob jemand schreibt, der Krieg von 1812 habe 1945 angefangen”, erklärte Les dazu in unserem MIT-Kollegenkreis. Um eine gute Note zu erzielen, genüge es den Aufsatz mit Daten – auch falschen – und sperrigen Wörtern (am besten: vielen sperrigen Wörten) zu stopfen (einen entsprechenden Artikel, in dem Les ausführlich zitiert wird, gibt es hier in der New York Times).

Doch das eigentliche Problem dabei ist nicht, dass sich der e-Rater und andere Bewertungsbots von Unfug täuschen lassen; das ließe sich vermutlich leicht dadurch ausbügeln, dass – wie bei den eingangs erwähnten Freshman-Examen schon üblich – das Material vorgegeben wird, das die Student_innen verwenden müssen, und die Software dann einfach die Konsistenz der Aufsatz-Fakten mit denen des Lesematerials abgleicht. Aber die größere Gefahr liegt darin, dass nicht nur das Lesen, sondern auch das Schreiben dadurch “mechanisiert” wird. Will heißen: dass Stil und Ausdruck in das Schema gepresst werden, das dem Robo-Reader “gefällt”. Lange Sätze. Große Worte. Genau nicht so, wie ich es zwei Sätze zuvor gemacht habe.

Und mehr noch: Nach dem Muster der Rechtschreib- und Grammatik-Korrektur, die längst schon Bestandteil handelsüblicher Textverarbeitungs-Programme sind, ließe sich so ein automatischer Essay-Bewerter dann auch gleich in die Schreibsoftware auf jedem Studentencomputer einbauen. Abwegig? Keineswegs!

Eine der Prämissen hier auf den ScienceBlogs ist ja, dass der Fortschritt nicht aufgehalten werden solle. Sicher, wir haben als Grundschüler noch das Einmaleins gepaukt und wurden in Rechtschreibung gedrillt – Taschenrechner und Autokorrektur-Software machen solche Kenntnisse praktisch überflüssig. Und welchen Zweck hätte es, Kindern die Kursivschrift in kalligraphischer Qualität einzutrichtern, wenn sie als Erwachsene dann eh’ nur noch E-Mails und SMS tippen? Und ja, welches Recht sollte ich haben, auf Erhaltung meines Arbeitsplatzes als Dozent für akademisches Schreiben zu beharren, wenn die dafür notwendigen Kenntnisse doch sowieso codiert und automatisiert und für jeden Textprogramm-User per Tastendruck abrufbar sind?

Das Problem ist, dass Schreiben nicht nur, wie es vordergründig scheint, die Übertragung von Schriftsymbolen auf ein Träger- oder Speichermaterial ist. Dass Schreiben nicht nur die Aneinanderreihung von Wörtern unter Beachtung grammatischer und orthografischer Regeln ist. Dass Schreiben im Idealfall eben nicht zu einem standardisierten Produkt führen soll. Dies ist einer der wichtigsten Punkte, den ich meinen StudentInnen vermitteln will: Lange vor dem ersten Buchstaben, dem ersten Wort auf Papier oder dem Bildschirm kommt das Denken, das Nachdenken – erst über den Inhalt desssen, worüber man schreiben will, dann über den Inhalt dessen, was man schreiben will. Dann über die Struktur dessen, was man schreiben will – Gedanken wollen sortiert sein, ehe das Schreiben beginnt. Die Idee, dass all dies einfach in einen Brei verrührt und von einem Instant-Paper-Programm Robo-Leser-gerecht sortiert und formatiert wird, ist mit all dem nicht vereinbar.

Schreiben ist, wie sich selbst immer wieder erleben muss, typischer Weise eine Qual – wenn nicht für den Schreiber, dann für den Leser. (Ich glaube, dieser Spruch stammt von Wolf Schneider, bin mir aber nicht ganz sicher). Automatisierung erspart vielleicht dem “Anbieter” der Leistung “Schreiben” die Mühe und Qual – die dann umso größer beim Leser sein wird. Wer’s nicht glaubt, kann sich ja mal länger mit einem Sprachdialogsystem unterhalten …

flattr this!

Kommentare (6)

  1. #1 Arnd
    11. Juni 2012

    Ich bin deiner Meinung, Jürgen. Über vollautomatische Bewertungen bzw. Korrekturen können wir dann wieder nachdenken wenn die KI-Forschung soweit ist, dass die Leseroboter den Text auch wirklich verstehen.

  2. #2 MechanizedEckbert
    11. Juni 2012

    So ist es. Die Software versteht den Text doch überhaupt nicht, sondern vergleicht nur Wortfolgen nach bestimmten Mustern. Nur eine Frage der Zeit, bis die schlauen Menschen herausgefunden haben, wie man die Software am besten “beschummelt.”
    Bis zu einer echten KI ist es noch ein langer, langer Weg…

    Interessant ist m.E. hierbei noch ein philosophischer Aspekt, nämlich die Entmenschlichung der menschlichen Gesellschaft. Welche Folgen hat es, wenn ein Mensch in großen Teilen nur noch mit Maschinen kommuniziert (es gibt ja z.B. auch Ansätze, Psychotherapien über “Apps” laufen zu lassen)?

  3. #3 rolak
    11. Juni 2012

    Solange in der KI nicht so etwas wie ‘gesundes Mißtrauen’ und ‘angemessene Lernfähigkeit’ ordentlich umgesetzt wird, kann die Datenbak noch so umfassend und die (hier ja wohl eher gewünschte denn vorhandene) semantische Analyse noch so gut sein – es wird nichts werden mit der automagischen Beurteilung. Ok, auch Menschen können reingelegt werden (mit Maschinen^^), doch die beiden eingangs erwähnten Punkte schützen vor allzu häufiger Wiederholung.

  4. #4 Martin Haug
    11. Juni 2012

    Ich sehe es ebenso, dass auch wissenschaftliche Aufsätze nicht einfach nach Schema F runtergeschrieben werden sollten. Nur ein authentischer Stil des Autors bringt letztlich die Informationen so rüber, wie sie gemeint waren. Zudem pennt der Leser einem vermutlich nach dem 5. so geschriebenen Text ein.

    Trotzdem kann ich nicht umhin, diese Dinger enorm cool und spannend zu finden. 😀

  5. #5 Michael
    12. Juni 2012

    Sollte sich das ernsthaft durchsetzen, kann man die jungen Leute nicht beneiden. Das hätte absolut nichts mit einer die Kreativität und Leistung fördernden Lernumgebung zu tun. Das ist Dressur zur Konformität.

    Wenn wir in die Wissenschaftsgeschichte schauen, so ist Fortschritt gerade nicht durch Konformität sondern durch neue Gedanken entstanden. Und Sprache bzw. Texte sind der Ausdruck dieser Gedanken. Und das Ausdrücken der Gdanken soll hier doch geübt werden, oder?

    Deshalb bezweifle ich sehr stark, dass es jemals möglich ist, eine adäquate Bewertung durch ein Programm vornehmen zu lassen.

  6. #6 Klaus Krebs
    12. Juni 2012

    Wo man sich eine Deutungs-Analyse plus Bewertung eher vorstellen könnte, wäre die nonverbale Kommunikation von Rednern oder von Diskussionspartnern. Erstaunlich, dass sich daran noch keiner getraut hat.