Die Welt des Menschen besteht aus Sprache. Wir können an Hand von Worten nicht nur unsere Bedürfnisse äußern, Kritik üben und Wunschzettel für den Weihnachtsmann ansprechend aufsetzen, Sprache erlaubt es uns auch, unsere Kultur an zukünftige Generationen weiter zu vermitteln. Dabei ist jedes Wort, das wir irgendwo hin kritzeln, ein klitzekleiner eingefrorener Ausschnitt aus unserer momentanen Welt. Untersucht eines Tages jemand die Worte, die wir heute benutzen, kann er viel über uns lernen. Aber viel mehr noch kann man durch die Veränderungen in unserer Sprache über die Veränderungen in der menschlichen Entwicklung erfahren.

worte2.pngEin Team aus Harvard nutzte jetzt einen Großteil des Archivs von Google Books – das sind über 5 Millionen eingescannte Bücher, oder 4 % aller jemals gedruckten Werke – um die Rolle von Sprache in unserer Gesellschaft über die Zeit zu verfolgen. Sie werteten 500 Milliarden Wörter aus sieben Weltsprachen aus (37 Milliarden davon aus deutschen Büchern). Eine riesige Datenmenge. Zum Vergleich: Das menschliche Genom besteht aus ca. 3 Milliarden “Buchstaben”. In ihrer Publikation erläutern die Autoren diesen Datenwust noch weiter: Wenn man in einer geraden Linie schreiben würde, könnte man mit dieser Anzahl an Worten die Strecke von der Erde zum Mond zehnmal überbrücken. Versucht man das aber als sterblicher Mensch zu lesen, kommt man nicht weit – allein die Einträge aus dem Jahr 2000 würden bei zügigem Lesen (und ohne zu essen oder zu schlafen) 80 Jahre dauern.

Die Auswertung wurde selbstverständlich von Computern übernommen und ist bei Google mittlerweile über den sogenannten Ngram Viewer 1 verfügbar. Er lädt ein zum Herumspielen. Jürgen von Geograffitico hat dies auch schon mal getan, um zu sehen wie viel in den letzten paar Jahrhunderten eigentlich über Gott und die Welt geschrieben wurde.

Die Analysen, die nun online in Science veröffentlicht wurden, sind spannend. Im englischsprachigen Raum hat sich der Wortschatz zwischen 1900 und 2000 von ca. 500 000 Wörtern auf über 1 Million fast verdoppelt. Im Deutschen ist die “Frau” zunehmend stärker in Büchern aufgetaucht. Zwischen 1936 und 1944 verschwand der Künstler Marc Chagall aus den meisten deutschen Büchern, genau wie Pablo Picasso, während sie im englischen Sprachraum gleichmäßig weiter anstiegen. In der Kategorie “Berühmte, häufig erwähnte Persönlichkeiten” war lange Zeit “Sigmund Freud” deutlich in Führung, seit ca. 1995 fiel er aber stark ab und läuft Gefahr von “Charles Darwin” und “Albert Einstein” überholt zu werden.

darwin_worte.gif
Ngram: Häufigkeit, mit der vier (völlig zufällig ausgewählte) Persönlichkeiten in der untersuchten Literatur auftauchen. (Zum Vergrößern bitte auf das Bild klicken.)

Das nächste Ziel der Wissenschaftler ist der Kontext, in dem Worte, Namen und auch Zahlen auftauchen. Sie wollen die unmittelbaren Umgebung von Worten genauer untersuchen. Interessant fänden sie zum Beispiel ob der Kontext, in dem “Gott” erwähnt wird, sich über die letzten Jahrhunderte änderte.

Die Evolution der Grammatik

Ein spezielles Augenmerk wurde auf Verben gerichtet. Im Englischen gibt es ja irreguläre und reguläre Verben. Irreguläre sind die, die man in der Schule auswendig lernen musste, aber die doch sofort wieder aus den Köpfen verschwanden (to go, went, gone); nur durch die vielen regulären Verben machte der Englischunterricht glücklicherweise doch noch Spaß (to enjoy, enjoyed, enjoyed). Dies wurde durch die Studie bestätigt. Einfach zu merkende Verben trotzten den schweren Zeiten besser als komplizierte. Oder wie die Autoren es schön formulieren:

For instance, we found “found” (frequency: 5×10-4) 200,000 times more often than we finded “finded.” In contrast, “dwelt” (frequency: 1×10-5) dwelt in our data only 60 times as often as “dwelled” dwelled.

Eines meiner Lieblingsworte (im Englischen), mit dem ich mich immer rumärgern musste weil ich konstant den Eindruck hatte, es falsch zu benutzen, bekam eine Sonderstellung in der Studie. “to sneak” heißt schleichen, oder auch stibitzen. Interessanterweise wechselte in den USA die Popularität der Vergangenheitsform von Jahr zu Jahr. Während in manchen Jahren die Vergangenheitsform “sneaked” favorisiert wurde, ist es in einem anderen “snuck”. Ich bin erleichtert zu lernen, dass nicht nur ich die beiden jeweils nach Stimmung und Wetterbedingungen (oder sonst irgendwelchen willkürlichen Begründungen) auswählte. Es ist die gesamte US-amerikanische Literatur – oder genauer gesagt: 4 % davon.

1 / 2 / Auf einer Seite lesen

Kommentare (10)

  1. #1 Daniel Scholten
    Dezember 21, 2010

    Was man in der Schule auswendig lernt, muß deshalb nicht irregulär sein. Ich habe die Binomischen Formeln damals auch auswendig gelernt.

    Die starken Verben sind im Englischen auch nichts anderes als stark und eigentlich das Gegenteil von unregelmäßig. Go, went, gone ist da vielleicht ein ungünstiges Beispiel, weil das Präteritum durch went (wandte) suppletiert wird. Die starken Verben bilden in allen germanischen Sprachen ein in sich sehr regelmäßiges System, nach selbst im Englischen intakt ist. Dieses System wird noch sehr, sehr lange bestehen.

    In der historischen Sprachwissenschaft stößt man andauernd auf das Phänomen, daß sich isolierte, archaische oder verdunkelte Formen sehr hartnäckig neben solchen Formen halten, die kürzlich systematisch gebildet wurden, im Deutschen etwa “wandte” neben “wendete”. Manchmal über Jahrtausende.

    Wenn die Beliebtheit von Verbformen jährlich wechselt, ist das ein überdeutlicher Hinweis darauf, daß das Korpus unsauber und unzuverlässig ist, was bei einer solchen Massenanalyse ohnehin offenkundig ist. Man kann aus einem kleinen, aber sauber konzipierten Korpus viel bessere Erkenntnisse ziehen. Was Harvard macht, erinnert mich sehr an unseligen Joseph Greenberg. Die Erkenntnisse aus solchen Tests haben in der Linguistik eigentlich nie Bestand.

    Was die Entwicklung einzelner Wörter angeht, da gibt es für das Deutsche seit anderthalb Jahrhunderten das Wörterbuch von Grimm. Da wird die Geschichte, Beliebtheit, der Bedeutungswandel und der Wandel der syntaktischen Anwendungen jedes Wortes mit vielen Belegen aufgezeigt. Allerdings hat Grimm das alles über Jahre sorgfältig untersucht und zusammengetragen.

  2. #2 KommentarAbo
    Dezember 21, 2010

  3. #3 Dr. Weihnachtswebbaer
    Dezember 21, 2010

    Die Welt des Menschen besteht aus Sprache.

    Lol.
    Was aber, wenn man den Wortschatz einer einzigen Person über ein gesamtes Leben verfolgen könnte? Findet man dann ähnliche Veränderungen?

    Überschätzen Sie mal die Sprache nicht. Menschen (und Bären) können auch sprachlos die Welt wahrnehmen und mit ihr interagieren.

    Die Sprache ist technisch gesehen nur ein Protokoll, dass dem Austausch von Sachverhalten dient. Sie ist an sich wertlos, bzw. gewinnt ihren Wert nur aus der Effizienz bei der Unterstützung der Sacharbeit.

    “Lol” macht Sie sympatisch, gerade auch wegen dem großgeschriebenen ersten Buchstaben. – Äh, der Weihnachtswebbaer missachtet die Sprache bestmöglich, er erfindet regelmäßig neue Wörter und amüsiert sich über die Assoziationen anderer.

    Am Rande: G.J.Caeser soll einen Wortschatz von, hüstel, 2.000 Wörtern besessen haben.
    Wer dieses Schulbuch, irgendwas mit bello gallico, gelesen hat, der ahnt, dass dem so gewesen sein könnte.

    Gute beobachtet, gut geschrieben!
    HO, HO, HO,
    frohe Weihnachten!
    Dr. Weihnachtswebbaer

  4. #4 rolak
    Dezember 21, 2010

    Lol als Lehnwort aus dem Niederländischen wird natürlich am Satzanfang groß geschrieben, tststs

    Manchmal komme ich mir analog zu H.D.Hüsch (Vorkämpfer für aussterbende Tonarten) wie ein unermüdlicher Benutzer aussterbender Wörter vor 😉 Liegt wohl an der Menge gelesener Bücher aus längst vergangenen Tagen und dem damit verbundenen Nachschlagen von Unbekanntem. Vieles davon war einfach zu interessant um es zu vergessen – und fließt ab und zu wieder in den Sprachgebrauch ein.

  5. #5 Clemens
    Dezember 21, 2010

    Zitat “Ich habe zum Beispiel bemerkt wie die Häufigkeit des Wortes “anscheinend” in meinem Wortschatz angestiegen ist, während das Wort “scheinbar” mittlerweile nur noch in wenigen Fällen auftaucht.”
    Woran liegt das? Daran, dass anscheinend die unterschiedliche Bedeutung der beiden Worte immer weniger beachtet wird? Oder daran, dass scheinbar Dinge seltener nur dem äußeren Eindruck nach und nicht tatsächlich sind, was sie vorgeben?

  6. #6 Dr. Weihnachtswebbaer
    Dezember 21, 2010

    @Clemens
    Die unterschiedliche Bedeutung von “anscheinend” und “scheinbar” ist klar. Wäre denkbar, dass der geschätzte Blogmeister diese nicht kennt, Lol, Dr. Weihnachtswebbaer ist sich zudem im Unklaren, ob der Unterschied zwischen “Worte” und “Wörter” bekannt ist.
    HO HO HO!

    Zu Ihrem “Woran liegt das?”: Früher, also zu den Zeiten als es noch keine Linguisten und Sprachaufpasser gab, hat jeder Mensch (und jeder Bär) so deutsch (oder auch lateinisch) gesprochen, wie es ihm gefiel. [1]
    Waren nicht die schlechtesten Zeiten damals!

    Und weil die Sprache nur ein Protokoll ist, macht das auch nichts, schadet nicht der Sacharbeit. Auch heutzutage wird – wenn es nicht offiziell ist – auch auf hohem gesellschaftlichen Niveau kommuniziert, wie es Luther und andere bspw. taten.

    Wir merken uns: Sprache nicht so wichtig.

    HTH, frohe Weihnachtstage!
    Dr. Wwb

    [1] Und mal Hand aufs Herz: Die unterschiedliche Bedeutung von “anscheinend” und “scheinbar” ist doch antiintuitiv! – Die Sprache bzw. die Befolgung der Regeln wird von einigen [i] leider oft als soziales Instrument genutzt: für die Herabsetzung und zur Hierarchiebewahrung.
    [i] oft sinds bemerkenswerterweise unproduktive oder wenig produktive Sozialfuzzies, die so vorgehen

  7. #7 Nils
    Dezember 21, 2010

    @Clemens:
    Es stimmt, die beiden Worte werden häufig durcheinander geschmissen. (Siehe z.B. meine früheren Posts.) Bei mir liegt der Unterschied in der Benutzung daran, dass ich lange Zeit nach meiner Rückkehr aus den USA die beiden Worte gleich benutzt habe, was eventuell zurückzuführen ist auf die Benutzung des Wortes “apparently”. Dieses wird oft nämlich sowohl als “anscheinend” und auch als “scheinbar” benutzt und sogar übersetzt. Aber mittlerweile versuche ich mehr Acht zu geben, und auch im täglichen Sprachgebrauch die Worte richtig zu verwenden. Dann erst merkt man, wie häufig Leute die beiden Worte verwechseln …

    @Daniel:
    Vielen Dank für den informativen Beitrag. Ich frage mich in wie weit diese Studie tatsächlich einen Beitrag zur Sprachwissenschaft leistet. Soweit ich das durchschaue ist bei den Autoren weder ein Historiker noch ein Sprachwissenschaftler dabei, sondern hauptsächlich Mathematiker, Ingenieurwissenschaftler und Evolutionsbiologen.

  8. #8 Nils
    Dezember 21, 2010

    @Webbaer:
    Worte, Wörter, sind doch alles eh nur Worte … äh, Wörter. Ich kenne den Unterschied, aber wie bei “scheinbar” und “anscheinend” falle ich hier wohl auch in die Kategorie “ist doch nicht so wichtig”.
    Vorsatz für 2011: Mehr auf die Worte Worte und Wörter achten. (Ach Mist, fängt schon schlecht an …)

  9. #9 Daniel Scholten
    Dezember 21, 2010

    @Nils
    Gerade bei der Beliebtheit und Häufigkeit von Wörtern oder Wortformen (backte/buk) kommt es sehr darauf an, Text- und Sprechgattungen sorgfältig zu einem repräsentativen Körbchen zusammenzustellen.

    Bei digitalen Texten gibt es zum Beispiel wegen des Urheberrechts eine enorme Schieflage. In Grimms Wörterbuch gibt es nur Belege von Dichtern, die Grimm gefielen. Aber was ist mit Zeitungen oder Alltagstexten früherer Zeiten? Digitalisate sind mehrheitlich literarisch, aber die Sprachwissenschaft geht heute vom Primat der gesprochenen Sprache aus.

    Wenn im Korpus viel Goethe steckt, könnte man zu dem Eindruck gelangen, “frug” wäre einst ein gängiges Präteritum neben “fragte” gewesen. Tatsächlich war “frug” aber im Hoch- und Niederdeutschen nie gängig und immer nur der Irrtum einzelner.

    Ich kann mich an eine Untersuchung erinnern, mit der sich vor einigen Jahren zwei Mathematiker an der Suche nach der Urheimat der Indogermanen beteiligten. Die lokalisierten sie in Anatolien. Die Studie wurde aber von Indogermanisten gleich verworfen, weil das Korpus, der Prüfwortschatz aus hundert urindogermanischen Wörtern, falsch zusammengestellt war. Das ist leider die Krux solcher interdisziplinären Ansätze. Der Rechenweg war wahrscheinlich gut, aber um das Korpus richtig zusammenzustellen, bedarf es jahrelanger Erfahrung als Indogermanist. Die können aber wiederum bei solchen Fragen Untersuchungen zur mitochondralen und y-gonosomalen DNS nicht kritisch beurteilen, sondern nur zur Kenntnis nehmen, weil eine kritische Beurteilung nur möglich ist, wenn man sein Leben der Genetik gewidmet hat.

    Dennoch werden diese Verfahren in der Zukunft immer besser werden, je weiter die Digitalisierung von Texten und die Standardisierung der Digitalisate voranschreitet.

  10. #10 Dr. Weihnachtswebbaer
    Dezember 22, 2010

    Gerade bei der Beliebtheit und Häufigkeit von Wörtern oder Wortformen (backte/buk) kommt es sehr darauf an, Text- und Sprechgattungen sorgfältig zu einem repräsentativen Körbchen zusammenzustellen.

    Oder man nimmt eben alle verfügbaren Daten und schließt die Experten, die “repräsentative Körbchen” packen wollen, einfach aus: eine Fehlerquelle weniger.
    Am Rande: Google Books ist wirklich eine großartige Ressource! Die Bücher sind sehr ordentlich OCR-erfasst und somit recht gut durchsuchbar.

    Weihnachtsgrüße!
    Wwb