Die Welt des Menschen besteht aus Sprache. Wir können an Hand von Worten nicht nur unsere Bedürfnisse äußern, Kritik üben und Wunschzettel für den Weihnachtsmann ansprechend aufsetzen, Sprache erlaubt es uns auch, unsere Kultur an zukünftige Generationen weiter zu vermitteln. Dabei ist jedes Wort, das wir irgendwo hin kritzeln, ein klitzekleiner eingefrorener Ausschnitt aus unserer momentanen Welt. Untersucht eines Tages jemand die Worte, die wir heute benutzen, kann er viel über uns lernen. Aber viel mehr noch kann man durch die Veränderungen in unserer Sprache über die Veränderungen in der menschlichen Entwicklung erfahren.

worte2.pngEin Team aus Harvard nutzte jetzt einen Großteil des Archivs von Google Books – das sind über 5 Millionen eingescannte Bücher, oder 4 % aller jemals gedruckten Werke – um die Rolle von Sprache in unserer Gesellschaft über die Zeit zu verfolgen. Sie werteten 500 Milliarden Wörter aus sieben Weltsprachen aus (37 Milliarden davon aus deutschen Büchern). Eine riesige Datenmenge. Zum Vergleich: Das menschliche Genom besteht aus ca. 3 Milliarden “Buchstaben”. In ihrer Publikation erläutern die Autoren diesen Datenwust noch weiter: Wenn man in einer geraden Linie schreiben würde, könnte man mit dieser Anzahl an Worten die Strecke von der Erde zum Mond zehnmal überbrücken. Versucht man das aber als sterblicher Mensch zu lesen, kommt man nicht weit – allein die Einträge aus dem Jahr 2000 würden bei zügigem Lesen (und ohne zu essen oder zu schlafen) 80 Jahre dauern.

Die Auswertung wurde selbstverständlich von Computern übernommen und ist bei Google mittlerweile über den sogenannten Ngram Viewer 1 verfügbar. Er lädt ein zum Herumspielen. Jürgen von Geograffitico hat dies auch schon mal getan, um zu sehen wie viel in den letzten paar Jahrhunderten eigentlich über Gott und die Welt geschrieben wurde.

Die Analysen, die nun online in Science veröffentlicht wurden, sind spannend. Im englischsprachigen Raum hat sich der Wortschatz zwischen 1900 und 2000 von ca. 500 000 Wörtern auf über 1 Million fast verdoppelt. Im Deutschen ist die “Frau” zunehmend stärker in Büchern aufgetaucht. Zwischen 1936 und 1944 verschwand der Künstler Marc Chagall aus den meisten deutschen Büchern, genau wie Pablo Picasso, während sie im englischen Sprachraum gleichmäßig weiter anstiegen. In der Kategorie “Berühmte, häufig erwähnte Persönlichkeiten” war lange Zeit “Sigmund Freud” deutlich in Führung, seit ca. 1995 fiel er aber stark ab und läuft Gefahr von “Charles Darwin” und “Albert Einstein” überholt zu werden.

darwin_worte.gif
Ngram: Häufigkeit, mit der vier (völlig zufällig ausgewählte) Persönlichkeiten in der untersuchten Literatur auftauchen. (Zum Vergrößern bitte auf das Bild klicken.)

Das nächste Ziel der Wissenschaftler ist der Kontext, in dem Worte, Namen und auch Zahlen auftauchen. Sie wollen die unmittelbaren Umgebung von Worten genauer untersuchen. Interessant fänden sie zum Beispiel ob der Kontext, in dem “Gott” erwähnt wird, sich über die letzten Jahrhunderte änderte.

Die Evolution der Grammatik

Ein spezielles Augenmerk wurde auf Verben gerichtet. Im Englischen gibt es ja irreguläre und reguläre Verben. Irreguläre sind die, die man in der Schule auswendig lernen musste, aber die doch sofort wieder aus den Köpfen verschwanden (to go, went, gone); nur durch die vielen regulären Verben machte der Englischunterricht glücklicherweise doch noch Spaß (to enjoy, enjoyed, enjoyed). Dies wurde durch die Studie bestätigt. Einfach zu merkende Verben trotzten den schweren Zeiten besser als komplizierte. Oder wie die Autoren es schön formulieren:

For instance, we found “found” (frequency: 5×10-4) 200,000 times more often than we finded “finded.” In contrast, “dwelt” (frequency: 1×10-5) dwelt in our data only 60 times as often as “dwelled” dwelled.

Eines meiner Lieblingsworte (im Englischen), mit dem ich mich immer rumärgern musste weil ich konstant den Eindruck hatte, es falsch zu benutzen, bekam eine Sonderstellung in der Studie. “to sneak” heißt schleichen, oder auch stibitzen. Interessanterweise wechselte in den USA die Popularität der Vergangenheitsform von Jahr zu Jahr. Während in manchen Jahren die Vergangenheitsform “sneaked” favorisiert wurde, ist es in einem anderen “snuck”. Ich bin erleichtert zu lernen, dass nicht nur ich die beiden jeweils nach Stimmung und Wetterbedingungen (oder sonst irgendwelchen willkürlichen Begründungen) auswählte. Es ist die gesamte US-amerikanische Literatur – oder genauer gesagt: 4 % davon.

Manche irregulären Worte stehen aber völlig vor dem Aussterben. In den USA, und zunehmend auch in England, weichen die -t Endungen wie z.B. von “smelt” (gerochen) und “burnt” (gebrannt) neuen Formen wie “smelled” und “burned”.

Wenn dies natürliches Artensterben ist, wie müssen wir dann unsere tolle “neue” Rechtschreibung verstehen?

E wie Extinktion

Worte sterben also auch aus. “Gott” ist seit 1850 immer seltener in Büchern vorgekommen. Erst letztes Wochenende unterhielt ich mich mit Freunden beim Essen darüber, was eigentlich aus dem “Vetter” geworden ist. Es dauerte einen Moment bis ich mir in Erinnerung gerufen hatte, dass es sich dabei um einen Cousin handelte. Wahrscheinlich deswegen, weil ich in meiner Familie mehr Kontakt zu meinen “Basen” pflege. Schulkinder von heute finden es zunehmend schwerer Worte zu finden, die alternativ für “gehen” benutzt werden können. Liegt das daran, dass abgesehen von Bundeskanzlern niemand mehr “schreitet” oder daran, dass Kinder von heute mehr zu Hause bleiben und “chillen” anstatt sich zu bewegen? Nein, das sind wahrscheinlich ungerechtfertigte Unterstellungen, aber in einem Zeitraum von gerade mal 20 Jahren sieht man schon, wie sehr der Wortschatz der Generationen sich unterscheidet.

Lol.

Was aber, wenn man den Wortschatz einer einzigen Person über ein gesamtes Leben verfolgen könnte? Findet man dann ähnliche Veränderungen? Professor Ian Lancashire von der Universität Toronto hat genau das gemacht. Er untersuchte die Werke von Shakespeare, Geoffrey Chaucer und John Milton und fand unter anderem, dass letzterer nie das Wort “because” benutzte. Schließlich widmete er sich letztes Jahr einer Leidenschaft, den Kriminalromanen von Agatha Christie. Er untersuchte die Frequenz, mit der unterschiedliche Wörter benutzt wurden. Zufällig wählte er 16 Romane aus, die von Miss Christie innerhalb von 50 Jahren geschrieben wurden. Als er bei einem ihrer letzten (dem 73sten der Autorin, geschrieben mit 81!) ankam, bemerkte er etwas Merkwürdiges. Das Buch hieß Elefanten vergessen nicht, doch genau dies passierte Agatha Christie. Sie verlor etwa ein Fünftel ihre Vokabeln. Worte wie “something” und “anything” nahmen erheblich zu, doch die Vielfalt in der Sprache war weg.

Prof. Lancashire sieht dies als ein Indiz dafür, dass Agatha Christie an Alzheimer litt. Die Krankheit wurde bei ihr nie diagnostiziert, aber die Hinweise durch ihr 73. Buch lassen darauf schließen, dass sie selbst so etwas vermutete: In dem Buch geht es um eine alternde Autorin, die Hercule Poirot bei einem Fall zu helfen versucht, obwohl sie starke Gedächtnisprobleme hat.

Es wäre interessant zu sehen, in wie weit sich Agatha Christies Wortschatz über ihr Leben verändert hat, welche neuen Worte hinzugekommen sind und welche ersetzt wurden. Bei jedem von uns, genau wie in der Gesellschaft als Ganzem, kann man solch eine Veränderung entdecken. Ich habe zum Beispiel bemerkt wie die Häufigkeit des Wortes “anscheinend” in meinem Wortschatz angestiegen ist, während das Wort “scheinbar” mittlerweile nur noch in wenigen Fällen auftaucht.

Um ein Wort muss man sich übrigens keine Sorgen machen. In der deutschsprachigen Literatur (oder besser: in den 4 %, die wir bisher kennen) ist es in den letzte zweihundert Jahren stetig angestiegen. In diesem Sinne:

Frohe Weihnachten

weihnachten_worte.gif
Ngram: Häufigkeit, mit der die Worte Weihnachten, Christmas und Noel in deutschen Büchern vorkommen. (Zum Vergrößern bitte auf das Bild klicken.)

 

Fußnote:

1 n-gram steht für n Worte, die vorne und hinten mit einem Leerzeichen begrenzt sind. 1-gram ist so etwas wie “Autobahn”, 2-gram ist z.B. eine “große Straße”. Der Viewer macht übrigens jede Menge Spaß, ausprobieren lohnt sich.

ResearchBlogging.orgMichel, J., Shen, Y., Aiden, A., Veres, A., Gray, M., , ., Pickett, J., Hoiberg, D., Clancy, D., Norvig, P., Orwant, J., Pinker, S., Nowak, M., & Aiden, E. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books Science DOI: 10.1126/science.1199644

Kommentare (10)

  1. #1 Daniel Scholten
    Dezember 21, 2010

    Was man in der Schule auswendig lernt, muß deshalb nicht irregulär sein. Ich habe die Binomischen Formeln damals auch auswendig gelernt.

    Die starken Verben sind im Englischen auch nichts anderes als stark und eigentlich das Gegenteil von unregelmäßig. Go, went, gone ist da vielleicht ein ungünstiges Beispiel, weil das Präteritum durch went (wandte) suppletiert wird. Die starken Verben bilden in allen germanischen Sprachen ein in sich sehr regelmäßiges System, nach selbst im Englischen intakt ist. Dieses System wird noch sehr, sehr lange bestehen.

    In der historischen Sprachwissenschaft stößt man andauernd auf das Phänomen, daß sich isolierte, archaische oder verdunkelte Formen sehr hartnäckig neben solchen Formen halten, die kürzlich systematisch gebildet wurden, im Deutschen etwa “wandte” neben “wendete”. Manchmal über Jahrtausende.

    Wenn die Beliebtheit von Verbformen jährlich wechselt, ist das ein überdeutlicher Hinweis darauf, daß das Korpus unsauber und unzuverlässig ist, was bei einer solchen Massenanalyse ohnehin offenkundig ist. Man kann aus einem kleinen, aber sauber konzipierten Korpus viel bessere Erkenntnisse ziehen. Was Harvard macht, erinnert mich sehr an unseligen Joseph Greenberg. Die Erkenntnisse aus solchen Tests haben in der Linguistik eigentlich nie Bestand.

    Was die Entwicklung einzelner Wörter angeht, da gibt es für das Deutsche seit anderthalb Jahrhunderten das Wörterbuch von Grimm. Da wird die Geschichte, Beliebtheit, der Bedeutungswandel und der Wandel der syntaktischen Anwendungen jedes Wortes mit vielen Belegen aufgezeigt. Allerdings hat Grimm das alles über Jahre sorgfältig untersucht und zusammengetragen.

  2. #2 KommentarAbo
    Dezember 21, 2010

  3. #3 Dr. Weihnachtswebbaer
    Dezember 21, 2010

    Die Welt des Menschen besteht aus Sprache.

    Lol.
    Was aber, wenn man den Wortschatz einer einzigen Person über ein gesamtes Leben verfolgen könnte? Findet man dann ähnliche Veränderungen?

    Überschätzen Sie mal die Sprache nicht. Menschen (und Bären) können auch sprachlos die Welt wahrnehmen und mit ihr interagieren.

    Die Sprache ist technisch gesehen nur ein Protokoll, dass dem Austausch von Sachverhalten dient. Sie ist an sich wertlos, bzw. gewinnt ihren Wert nur aus der Effizienz bei der Unterstützung der Sacharbeit.

    “Lol” macht Sie sympatisch, gerade auch wegen dem großgeschriebenen ersten Buchstaben. – Äh, der Weihnachtswebbaer missachtet die Sprache bestmöglich, er erfindet regelmäßig neue Wörter und amüsiert sich über die Assoziationen anderer.

    Am Rande: G.J.Caeser soll einen Wortschatz von, hüstel, 2.000 Wörtern besessen haben.
    Wer dieses Schulbuch, irgendwas mit bello gallico, gelesen hat, der ahnt, dass dem so gewesen sein könnte.

    Gute beobachtet, gut geschrieben!
    HO, HO, HO,
    frohe Weihnachten!
    Dr. Weihnachtswebbaer

  4. #4 rolak
    Dezember 21, 2010

    Lol als Lehnwort aus dem Niederländischen wird natürlich am Satzanfang groß geschrieben, tststs

    Manchmal komme ich mir analog zu H.D.Hüsch (Vorkämpfer für aussterbende Tonarten) wie ein unermüdlicher Benutzer aussterbender Wörter vor 😉 Liegt wohl an der Menge gelesener Bücher aus längst vergangenen Tagen und dem damit verbundenen Nachschlagen von Unbekanntem. Vieles davon war einfach zu interessant um es zu vergessen – und fließt ab und zu wieder in den Sprachgebrauch ein.

  5. #5 Clemens
    Dezember 21, 2010

    Zitat “Ich habe zum Beispiel bemerkt wie die Häufigkeit des Wortes “anscheinend” in meinem Wortschatz angestiegen ist, während das Wort “scheinbar” mittlerweile nur noch in wenigen Fällen auftaucht.”
    Woran liegt das? Daran, dass anscheinend die unterschiedliche Bedeutung der beiden Worte immer weniger beachtet wird? Oder daran, dass scheinbar Dinge seltener nur dem äußeren Eindruck nach und nicht tatsächlich sind, was sie vorgeben?

  6. #6 Dr. Weihnachtswebbaer
    Dezember 21, 2010

    @Clemens
    Die unterschiedliche Bedeutung von “anscheinend” und “scheinbar” ist klar. Wäre denkbar, dass der geschätzte Blogmeister diese nicht kennt, Lol, Dr. Weihnachtswebbaer ist sich zudem im Unklaren, ob der Unterschied zwischen “Worte” und “Wörter” bekannt ist.
    HO HO HO!

    Zu Ihrem “Woran liegt das?”: Früher, also zu den Zeiten als es noch keine Linguisten und Sprachaufpasser gab, hat jeder Mensch (und jeder Bär) so deutsch (oder auch lateinisch) gesprochen, wie es ihm gefiel. [1]
    Waren nicht die schlechtesten Zeiten damals!

    Und weil die Sprache nur ein Protokoll ist, macht das auch nichts, schadet nicht der Sacharbeit. Auch heutzutage wird – wenn es nicht offiziell ist – auch auf hohem gesellschaftlichen Niveau kommuniziert, wie es Luther und andere bspw. taten.

    Wir merken uns: Sprache nicht so wichtig.

    HTH, frohe Weihnachtstage!
    Dr. Wwb

    [1] Und mal Hand aufs Herz: Die unterschiedliche Bedeutung von “anscheinend” und “scheinbar” ist doch antiintuitiv! – Die Sprache bzw. die Befolgung der Regeln wird von einigen [i] leider oft als soziales Instrument genutzt: für die Herabsetzung und zur Hierarchiebewahrung.
    [i] oft sinds bemerkenswerterweise unproduktive oder wenig produktive Sozialfuzzies, die so vorgehen

  7. #7 Nils
    Dezember 21, 2010

    @Clemens:
    Es stimmt, die beiden Worte werden häufig durcheinander geschmissen. (Siehe z.B. meine früheren Posts.) Bei mir liegt der Unterschied in der Benutzung daran, dass ich lange Zeit nach meiner Rückkehr aus den USA die beiden Worte gleich benutzt habe, was eventuell zurückzuführen ist auf die Benutzung des Wortes “apparently”. Dieses wird oft nämlich sowohl als “anscheinend” und auch als “scheinbar” benutzt und sogar übersetzt. Aber mittlerweile versuche ich mehr Acht zu geben, und auch im täglichen Sprachgebrauch die Worte richtig zu verwenden. Dann erst merkt man, wie häufig Leute die beiden Worte verwechseln …

    @Daniel:
    Vielen Dank für den informativen Beitrag. Ich frage mich in wie weit diese Studie tatsächlich einen Beitrag zur Sprachwissenschaft leistet. Soweit ich das durchschaue ist bei den Autoren weder ein Historiker noch ein Sprachwissenschaftler dabei, sondern hauptsächlich Mathematiker, Ingenieurwissenschaftler und Evolutionsbiologen.

  8. #8 Nils
    Dezember 21, 2010

    @Webbaer:
    Worte, Wörter, sind doch alles eh nur Worte … äh, Wörter. Ich kenne den Unterschied, aber wie bei “scheinbar” und “anscheinend” falle ich hier wohl auch in die Kategorie “ist doch nicht so wichtig”.
    Vorsatz für 2011: Mehr auf die Worte Worte und Wörter achten. (Ach Mist, fängt schon schlecht an …)

  9. #9 Daniel Scholten
    Dezember 21, 2010

    @Nils
    Gerade bei der Beliebtheit und Häufigkeit von Wörtern oder Wortformen (backte/buk) kommt es sehr darauf an, Text- und Sprechgattungen sorgfältig zu einem repräsentativen Körbchen zusammenzustellen.

    Bei digitalen Texten gibt es zum Beispiel wegen des Urheberrechts eine enorme Schieflage. In Grimms Wörterbuch gibt es nur Belege von Dichtern, die Grimm gefielen. Aber was ist mit Zeitungen oder Alltagstexten früherer Zeiten? Digitalisate sind mehrheitlich literarisch, aber die Sprachwissenschaft geht heute vom Primat der gesprochenen Sprache aus.

    Wenn im Korpus viel Goethe steckt, könnte man zu dem Eindruck gelangen, “frug” wäre einst ein gängiges Präteritum neben “fragte” gewesen. Tatsächlich war “frug” aber im Hoch- und Niederdeutschen nie gängig und immer nur der Irrtum einzelner.

    Ich kann mich an eine Untersuchung erinnern, mit der sich vor einigen Jahren zwei Mathematiker an der Suche nach der Urheimat der Indogermanen beteiligten. Die lokalisierten sie in Anatolien. Die Studie wurde aber von Indogermanisten gleich verworfen, weil das Korpus, der Prüfwortschatz aus hundert urindogermanischen Wörtern, falsch zusammengestellt war. Das ist leider die Krux solcher interdisziplinären Ansätze. Der Rechenweg war wahrscheinlich gut, aber um das Korpus richtig zusammenzustellen, bedarf es jahrelanger Erfahrung als Indogermanist. Die können aber wiederum bei solchen Fragen Untersuchungen zur mitochondralen und y-gonosomalen DNS nicht kritisch beurteilen, sondern nur zur Kenntnis nehmen, weil eine kritische Beurteilung nur möglich ist, wenn man sein Leben der Genetik gewidmet hat.

    Dennoch werden diese Verfahren in der Zukunft immer besser werden, je weiter die Digitalisierung von Texten und die Standardisierung der Digitalisate voranschreitet.

  10. #10 Dr. Weihnachtswebbaer
    Dezember 22, 2010

    Gerade bei der Beliebtheit und Häufigkeit von Wörtern oder Wortformen (backte/buk) kommt es sehr darauf an, Text- und Sprechgattungen sorgfältig zu einem repräsentativen Körbchen zusammenzustellen.

    Oder man nimmt eben alle verfügbaren Daten und schließt die Experten, die “repräsentative Körbchen” packen wollen, einfach aus: eine Fehlerquelle weniger.
    Am Rande: Google Books ist wirklich eine großartige Ressource! Die Bücher sind sehr ordentlich OCR-erfasst und somit recht gut durchsuchbar.

    Weihnachtsgrüße!
    Wwb