Computer verkosten Sprachwurzelgemüse

Von Jürgen Schönstein / 25. Juli 2014 / 18 Kommentare / Seite 1 von 2 / Auf einer Seite lesen

Über die vergangenen vier Wochen hinweg habe ich, auf ingesamt sechs Arbeitstage verteilt, wohl an die 130 oder 140 Aufsätze von Studentinnen und Studenten gelesen und bewertet; sie sind Teil eines jährlichen “Aufnahmerituals” (die Anführungszeichen erkläre ich gleich): Angehende Undergraduates- und Graduates müssen, unter einem gewissen Zeitdruck, mehrseitige Essays über ein ihnen vorgegebenes Thema und auf der Basis einer vorgegebenen Literaturauswahl schreiben. Zweck dieser Aufsätze ist – und darum die Anführungszeichen – nicht, über ihre Aufnahme am Massachusetts Institute of Technology zu entscheiden, wie das typischer Weise bei College-Essays der Fall ist; diese Schreibtests dienen ausschließlich dazu festzustellen, welche und wieviel Hilfe diese Studentinnen und Studenten bei der Entwicklung ihrer Kommunikationsfähigkeiten brauchen und welche einschlägigen Kurse sie dementsprechend belegen müssen.

Etwa ein knappes Drittel der MIT-Studentenschaft kommt aus dem Ausland – abgesehen von den USA waren im vergangenen Semester 111 Nationalitäten hier vertreten. Und dementsprechend viele dieser Aufsätze künftiger Studentinnen und Studentinnen sind also auch von Personen verfasst, die Englisch nicht als Muttersprache gelernt haben. Doch trotz der Anonymisierung (die GutachterInnen sehen nur eine Identifikationsnummer, sonst nichts) ist es nicht nur möglich zu erkennen, dass es sich dabei um Nicht-MuttersprachlerInnen handelt, sondern – wenn auch mit ein bisschen Übung, besser noch: mit eigenen (Fremd)Sprachkenntnissen – es ist oft gar nicht mal schwer zu erraten, welches die Muttersprache des Schreibers/der Schreiberin war. Und deswegen (es ist gerade mal vier Stunden her, dass ich den letzten Aufsatz gelesen habe) entlockte mir diese Nachricht des MIT-Pressebüros eher ein Gähnen: Essays in English yield information about other languages – klar doch verraten Aufsätze, selbst wenn sie in Englisch geschrieben wurden, etwas über die Struktur jener Sprache, in der die VerfasserInnen aufgewachsen sind. Eigenheiten im Satzbau beispielsweise verraten mir typischer Weise die Deutschen; fehlende Artikel sind ein markantes Kennzeichen vieler asiatischer Sprachen; ganz generell gesehen ist der Gebrauch von Präpositionen und ihre Platzierung im Text zumeist sehr charakteristisch von Sprache zu Sprache. Zugegeben, man muss Kenntnisse (und wenn’s nur ganz rudimentäre Kenntnisse wären) in der betreffenden Sprache mitbringen, um diese Muster erkennen zu können, und angesichts von Sprachverwandtschaft kann man auch mal leicht daneben liegen. Aber dass es diese Muster gibt, kann nicht wirklich neu sein.

Aber so ganz ohne Neuigkeitswert ist diese Meldung trotzdem nicht: Es geht nämlich eher darum, dass sich dank Computeralgorithmen, die am Computer Sience and Artificial Intelligence Lab entwickelt wurden, nicht nur die fremdsprachliche Herkunft automatisch von Texterfassungsprogrammen erkannt werden kann, sondern dass diese Programme in der Lage sind, aus solchen Texten grammatische Eigenschaften der (unbekannten) fremden Sprache zu destillieren, selbst wenn nicht ein einziges Wort, geschweige denn ganze Sätze in dieser Sprache im Text zu finden sind. Und das ist wiederum ganz appetitlich. Denn damit können Spracherkennungs- und -Verarbeitungsprogramme relativ schnell auf die Grammatik einer Fremdsprache gedrillt werden.

Als die ersten automatischen Übersetzungsprogramme auftauchten, taten sie sich mit dem Deutschen beispielsweise verflixt schwer: Unser Satzbau mit den geteilten und am Ende vollgestopfter Sätze klappernden Verben (“hat … gemacht”) war nach automatischer Übersetzung mit den ersten Versionen von Babelfish immer für ein paar Lacher gut* – aber mehr oft nicht. Der Sinn ging meist irgendwo zwischen Hilfsverb und Partizip über die Klippe. Um die deutsche Grammatik in Spracherkennungsprogramme einzubauen, bedurfte es eben der Kenntnisse in deutscher Grammatik (was wohl noch ziemlich leicht machbar war, da sie erstens üppig dokumentiert ist und es zweitens genügend Menschen mit umfassenden Deutschkenntnissen in den USA, wo die großen Softwareentwicklungen ja immer noch gemacht werden, geben dürfte). Doch weltweit werden mehr als 7000 Sprachen gesprochen, rund 2500 davon sind im Weltatlas der Sprachstrukturen vertreten, den das Max-Planck-Institut für evolutionäre Anthropologie zusammengestellt hat – aber nur ein paar hundert davon sind linguistisch überhaupt analysiert worden. Wenn man bedenkt wie viele Dokumente allein von AkademikerInnen und Diplomaten aus aller Welt in englischer Sprache produziert werden, dann wäre es schon sehr spannend zu sehen, wieviel sich daraus über die Grammatiken ihrer jeweiligen Muttersprachen lernen ließe.

Seite 1 / 2 / Auf einer Seite lesen

Nächste Seite »

Kommentare (18)

#1 rolak
25. Juli 2014

Bei mir ist der Groschen heute morgen etwas langsamer gefallen – doch irgendwann dämmerte die Erkenntnis, daß ‘*’ ein Stern und kein «”» und damit der folgende Absatz insgesamt eine Fußnotio praecox ist.. Mit einem «”» hinter ‘few laughs’ wäre es vielleicht schneller gegangen 😉

Unter den Menschen gibt es einige ziemlich treffsichere Dialekt- und Herkunftszuordner – warum sollte also nicht irgendwann die zugrundeliegende Analyse auch von sturen Computern bewältigt werden. Auch wenn automagische Redereduktion auf tatsächlich ausgesagtes deutlich interessanter wäre (und aktuell eher SciFi sein dürfte), jedwege Verarbeitung natürlicher Sprache ist ein faszinierender Aspekt der IT…
#2 Jürgen Schönstein
25. Juli 2014

@rolak
Ja, da war irgendwas verrutscht – muss wohl ein Nieser gewesen sein, der den Cursor beim Einfügen der Fußnote verschubst hat. Oder einfach nur pure Tolpatschigkeit. Und auch die Zitat-Abführung steht nun drin.
#3 Alderamin
25. Juli 2014

@Jürgen

<blockquotebedurfte es eben der Kenntnisse in deutscher Grammatik (was wohl noch ziemlich leicht machbar war, da sie erstens üppig dokumentiert ist und es zweitens genügend Menschen mit umfassenden Deutschkenntnissen in den USA, wo die großen Softwareentwicklungen ja immer noch gemacht werden, geben dürfte)

In der Tat. Bei uns in Aachen an der RWTH gibt es einen Informatik-Lehrstuhl, der sich schon seit Mitte der 90er mit Spracherkennung beschäftigt und sehr erfolgreich ist. Ich habe von Absolventen des Instituts gehört, die von dort schnurstracks ins Silicon Valley zu Google gewechselt sind. Das Wissen um die deutsche Grammatik gepaart mit den nötigen Fachkenntnissen in der Computerei sollte also schon lange in Übersee verfügbar sein. Google Translate ist ja auch gar nicht so übel im Übersetzen (allerdings wird wohl nach dem Stille-Post-Prinzip erst nach Englisch und dann in die Zielsprache übersetzt; ich lasse mir daher lieber alles nach Englisch übersetzen). Ich les’ mir gerne mal Wiki-Artikel in ausländischen Sprachen damit durch (was schreibt etwa der Chinese über uns, oder der Russe über MH-17).
#4 rolak
25. Juli 2014

Oder Tolpatschigkeit

Ach was, Jürgen, ‘Nieser’ klingt viel einleuchtender und erklärt auch schön das Hochschubsen.
#5 Hans
26. Juli 2014

Interessant. Aber mir fällt da immer noch die Sache mit den Eigennamen ein, die so ein Übersetzungsprogramm meisst auch nicht erkennt. So hatte mir Google vor einigen Jahren in einer Übersetung aus dem Englischen ins Deutsche immer was von einer “Welthandelsmitte” erzählt. – Aber was ist die Welthandelsmitte?
#6 Alderamin
26. Juli 2014

@Hans

World Trade Center 🙂

Und dann diese ominösen “Drucker Fahrer” 😆
#7 Hans
27. Juli 2014

@Alderamin: Gut!
Ein “Drucker-Fahrer” ist mir in einer Übersetzung aber noch nicht begegnet, obwohl der auch sehr verwirrend sein kann. – Vor allem wenn er nicht das tut, was er soll. Aber das ist ja ‘n anderes Thema.
#8 Alderamin
27. Juli 2014

@Hans

Ein “Drucker-Fahrer” ist mir in einer Übersetzung aber noch nicht begegnet

Nein? Bitteschön:

https://mscerts.programming4.us/de/922214.aspx
#9 Hans
27. Juli 2014

@Alderamin:
Aua! – Diese Übersetzung ist ja zum schreien!
Und äh, was soll dass hier bedeuten?

Nicht vergessen, mit unserem Aufstellungsort so häufig zu überprüfen, wie möglich, um auf den spätesten Fahrern, der Software und den Spielen modernisiert zu bleiben.

Deren Aufstellungsort? – Was steht denn da im Original?
Davon abgesehen: taugt der Drucker wenigsten was?
#10 Alderamin
28. Juli 2014

@Hans

Ich schätze mal so was wie:

Please do not forget to check our site as frequently as possible to stay up to date with the latest drivers, software and games.

Zum Drucker kann ich nichts sagen…
#11 Hans
28. Juli 2014

@Alderamin:
Hm, das könnte hinkommen.

Und ich hab einfach mal spekulkiert, dass Du diesen Drucker hast, wei Du die Seite ausgewählt hast. Aber wenn nicht, dann halt nicht. Ist jetzt auch nicht so wichtig, denn solange ich für meinen alten Deskjet noch Tintenpatronen kriege, brauch ich keinen neuen.
#12 Alderamin
28. Juli 2014

@Hans

Nö, ich hab einfach nach “Drucker-Fahrern” gegoogelt. Die waren mir anderswo aber schon in direkter Konfrontation begegnet.

Ich habe tatsächlich einen Canon-Tintendrucker, aber ein anderes, altes Modell (S820D). Der ist ziemlich gut. Wird aber auch wenig benutzt, so viel zu drucken habe ich nicht (und sowieso noch einen S/W-LED-Drucker für Briefe etc.)
#13 Wilhelm Leonhard Schuster
30. Juli 2014

Frage:Ist abzusehen ob je mittels Computern korrekt übersetzt werden kann?
#14 philipple
Basel
1. August 2014

Euch allen möchte ich die Seite “www.translationparty.com” ans Herz legen. Man gibt dort einen englischen Satz ein, der von Google Translate ins Japanische übersetzt wird, dann zurück ins Englische, und so weiter, bis ein Fixpunkt erreicht wird. Es ist wirklich schön. Das Programm endet mit der Bemerkung zum Fixpunkt: “That’s deep, man!”.
Als mathematisch Ausgebildeter frage ich mich natürlich, ob man beweisen kann, dass der Prozess (oder das linguistische dynamische System, wenn man so will) in einem Fixpunkt endet. Warum nicht in einer endlichen Periode, oder die Uebersetzung wandert immer weiter weg ins unendlich-unfassbar-Monströse? Ich hätte gern so ein Ding für Deutsch-Japanisch. Ist das wohl schwierig zu programmieren?
PS. Die beiden Ankreuzfelder zum Wählen:
[] Benachrichtige mich über nachfolgende Kommentare via E-mail.
[] Benachrichtige mich über nachfolgende Kommentare per E-mail.
sind auch ein ganz feiner Witz … Ich kreuz mal beides an.
#15 Alderamin
1. August 2014

@philipple

http://www.translationparty.com

Oh, nette Seite 🙂 Aus “How much wood would a woodchuck chuck when a woodchuck would chuck wood?” wird “Chuck Chuck wood wood is the time.” 😆

Ist aber anscheinend der Microsofttranslator, der hier genarrt wird.

Es ging mal das Gerücht um, dass man durch Google-Übersetzung von “The spirit was willing but the flesh was weak” ins Russische und zurück den Satz bekam “The Vodka was good but the meat was rotten”, aber das kann ich in der aktuellen Version nicht verifzieren und ist wohl nur eine Urban Legend.

PS. Die beiden Ankreuzfelder zum Wählen:

sind ein neuer alter Fehler, aber dafür gibt es jetzt ein Kommentarvorschau 🙂 🙂 🙂
#16 rolak
1. August 2014

Nur eine blog-abhängige Variation eine bekannten Themas, ~~Thomas~~ Alderamin – nebenan gibts drei zur Auswahl. Was mich dazu verleitete, jenes heute morgen als neuen Fehler zu brandmarken mit dem Verweis zu Florian ‘geht doch’. Dann wurde ich etwas wacher…

Urban Legend

Es gibt da eine uralte Anekdote (also ohne Wahrheits-Verdacht), geschätzt 50er, 60er Jahre, in der in den USA ein englisch-russisch hin+her-Übersetzer programmiert wird um die ganzen erlauschten news zu lesen und Falsches unterzujubeln. Beim Vorführ-Test wurde ‘Out of sight, out of mind’ eingegeben, etwas kyrillsches kam raus und weil es alles ultrageheim war, konnte keiner der Hochmögenden Russisch. Also retour übersetzt und heraus kam ‘Blind Idiot’.
#17 philipple
1. August 2014

Das neueste von der translationparty:
” To be or not to be, that is the question” wird zu:
” You should die of this problem”. Das ist schon fast ein zenbuddhistischer Koan, bzw. eine sehr praxisbezogene Antwort. Die Japaner sind halt auch ein praktisches Völkchen.
#18 Hans
4. August 2014

gerade Entdeckt:
https://einklich.net/rec/imsi.htm
😆

Computer verkosten Sprachwurzelgemüse

Kommentare (18)

Über den Autor

Über das Blog

Neueste Beiträge

Wissenschaft verstößt gegen Facebooks Community-Standards (Fortsetzung)

Update: Wissenschaft verstößt gegen Facebooks Community-Standards

Honi soit qui mal y pense – Community-Standards bei Facebook

Draußen – mal wieder… (Fortsetzung)

Draußen – mal wieder…

Letzte Kommentare

GeoGraffitico via E-Mail abonnieren

Am häufigsten angeschaut

Blogroll

Archive

Kategorien

Meta

Computer verkosten Sprachwurzelgemüse

Kommentare (18)

Abonnieren

Über den Autor

Über das Blog

Neueste Beiträge

Wissenschaft verstößt gegen Facebooks Community-Standards (Fortsetzung)

Update: Wissenschaft verstößt gegen Facebooks Community-Standards

Honi soit qui mal y pense – Community-Standards bei Facebook

Draußen – mal wieder… (Fortsetzung)

Draußen – mal wieder…

Letzte Kommentare

GeoGraffitico via E-Mail abonnieren

Am häufigsten angeschaut

Schlagwörterwolke

Blogroll

Archive

Kategorien

Meta