Über die vergangenen vier Wochen hinweg habe ich, auf ingesamt sechs Arbeitstage verteilt, wohl an die 130 oder 140 Aufsätze von Studentinnen und Studenten gelesen und bewertet; sie sind Teil eines jährlichen “Aufnahmerituals” (die Anführungszeichen erkläre ich gleich): Angehende Undergraduates- und Graduates müssen, unter einem gewissen Zeitdruck, mehrseitige Essays über ein ihnen vorgegebenes Thema und auf der Basis einer vorgegebenen Literaturauswahl schreiben. Zweck dieser Aufsätze ist – und darum die Anführungszeichen – nicht, über ihre Aufnahme am Massachusetts Institute of Technology zu entscheiden, wie das typischer Weise bei College-Essays der Fall ist; diese Schreibtests dienen ausschließlich dazu festzustellen, welche und wieviel Hilfe diese Studentinnen und Studenten bei der Entwicklung ihrer Kommunikationsfähigkeiten brauchen und welche einschlägigen Kurse sie dementsprechend belegen müssen.
Etwa ein knappes Drittel der MIT-Studentenschaft kommt aus dem Ausland – abgesehen von den USA waren im vergangenen Semester 111 Nationalitäten hier vertreten. Und dementsprechend viele dieser Aufsätze künftiger Studentinnen und Studentinnen sind also auch von Personen verfasst, die Englisch nicht als Muttersprache gelernt haben. Doch trotz der Anonymisierung (die GutachterInnen sehen nur eine Identifikationsnummer, sonst nichts) ist es nicht nur möglich zu erkennen, dass es sich dabei um Nicht-MuttersprachlerInnen handelt, sondern – wenn auch mit ein bisschen Übung, besser noch: mit eigenen (Fremd)Sprachkenntnissen – es ist oft gar nicht mal schwer zu erraten, welches die Muttersprache des Schreibers/der Schreiberin war. Und deswegen (es ist gerade mal vier Stunden her, dass ich den letzten Aufsatz gelesen habe) entlockte mir diese Nachricht des MIT-Pressebüros eher ein Gähnen: Essays in English yield information about other languages – klar doch verraten Aufsätze, selbst wenn sie in Englisch geschrieben wurden, etwas über die Struktur jener Sprache, in der die VerfasserInnen aufgewachsen sind. Eigenheiten im Satzbau beispielsweise verraten mir typischer Weise die Deutschen; fehlende Artikel sind ein markantes Kennzeichen vieler asiatischer Sprachen; ganz generell gesehen ist der Gebrauch von Präpositionen und ihre Platzierung im Text zumeist sehr charakteristisch von Sprache zu Sprache. Zugegeben, man muss Kenntnisse (und wenn’s nur ganz rudimentäre Kenntnisse wären) in der betreffenden Sprache mitbringen, um diese Muster erkennen zu können, und angesichts von Sprachverwandtschaft kann man auch mal leicht daneben liegen. Aber dass es diese Muster gibt, kann nicht wirklich neu sein.
Aber so ganz ohne Neuigkeitswert ist diese Meldung trotzdem nicht: Es geht nämlich eher darum, dass sich dank Computeralgorithmen, die am Computer Sience and Artificial Intelligence Lab entwickelt wurden, nicht nur die fremdsprachliche Herkunft automatisch von Texterfassungsprogrammen erkannt werden kann, sondern dass diese Programme in der Lage sind, aus solchen Texten grammatische Eigenschaften der (unbekannten) fremden Sprache zu destillieren, selbst wenn nicht ein einziges Wort, geschweige denn ganze Sätze in dieser Sprache im Text zu finden sind. Und das ist wiederum ganz appetitlich. Denn damit können Spracherkennungs- und -Verarbeitungsprogramme relativ schnell auf die Grammatik einer Fremdsprache gedrillt werden.
Als die ersten automatischen Übersetzungsprogramme auftauchten, taten sie sich mit dem Deutschen beispielsweise verflixt schwer: Unser Satzbau mit den geteilten und am Ende vollgestopfter Sätze klappernden Verben (“hat … gemacht”) war nach automatischer Übersetzung mit den ersten Versionen von Babelfish immer für ein paar Lacher gut* – aber mehr oft nicht. Der Sinn ging meist irgendwo zwischen Hilfsverb und Partizip über die Klippe. Um die deutsche Grammatik in Spracherkennungsprogramme einzubauen, bedurfte es eben der Kenntnisse in deutscher Grammatik (was wohl noch ziemlich leicht machbar war, da sie erstens üppig dokumentiert ist und es zweitens genügend Menschen mit umfassenden Deutschkenntnissen in den USA, wo die großen Softwareentwicklungen ja immer noch gemacht werden, geben dürfte). Doch weltweit werden mehr als 7000 Sprachen gesprochen, rund 2500 davon sind im Weltatlas der Sprachstrukturen vertreten, den das Max-Planck-Institut für evolutionäre Anthropologie zusammengestellt hat – aber nur ein paar hundert davon sind linguistisch überhaupt analysiert worden. Wenn man bedenkt wie viele Dokumente allein von AkademikerInnen und Diplomaten aus aller Welt in englischer Sprache produziert werden, dann wäre es schon sehr spannend zu sehen, wieviel sich daraus über die Grammatiken ihrer jeweiligen Muttersprachen lernen ließe.
*Dieser bewusst unelegant (aber durchaus nicht unüblich) konstruierte Satz wird von Babelfish auf folgende Weise ins Englische übersetzt: “Our sentence structure with the split and rattling at the end of stuffed sets verbs was good for automatic translation with the first versions of BabelFish, always for a few laughs.” Wenn man das Resultat per Babelfish rück”übersetzt”, erhält man die folgende Aussage: “Unsere Satzstruktur mit der Spaltung und am Ende des gefüllte Sätze Verben Klappern war gut für automatische Übersetzung mit den ersten Versionen von BabelFish, immer für ein paar Lacher.”
Kommentare (18)