Schnell gefragt: Warum sind manche Wörter kürzer als andere? Nicht, dass ich mir darüber bisher viele Gedanken gemacht hätte, aber die Wissenschaft – namentlich der Harvard-Linguist George K. Zipf in seinem Paper The Psycho-Biology of Language – hatte dies damit erklärt, dass häufiger verwendete Wörter, wie etwa die Artikel der, die, das oder Konjunktionen (und, oder) aus rein sprachökonomischen Gründen kurz gehalten werden. Wenn wir jedesmal statt “der” sowas wie “einsolcherwelcher” oder so was sagen müssten, dann wären Konversationen gewiss sehr schwerig. Doch ein Paper mit dem Titel
, das von Hirnforschern am Massachusetts Institute of Technology verfasst und in den Proceedings of the National Academy of Sciences veröffentlicht wurde, kommt überraschend zu einem ganz anderen Schluss: die Länge der Wörter sei nicht von ihrer Häufigkeit, sondern von ihrem Informationsgehalt abhängig.
Simpel ausgedrückt: Je mehr ein Wort für sich alleine schon ausdrückt (nehmen wir mal “Demokratie” als ein willkürliches Beispiel, das ja ein komplexes historisches und politisches Konzept beschreibt und auch ohne weiteren syntaktischen Kontext in seiner Komplexität begriffen werden kann), desto länger ist es. Kurze Wörter hingegen (da nehmen wir mal “gut”, weil ja sicher viele von uns Demokratie als gut empfinden dürften) brauchen viel wahrscheinlicher diesen Kontext – “gut” alleine kann sich auf alles Mögliche beziehen: die moralische Qualität eines Menschen (der gute Mensch von …), den Geschmack einer Speise (“Gute Knödel, Mutti!”), in anderer Schreibweise kann es ein Anwesen sein (“Gut Friedrichsruh”) und so weiter.
Zu diesem Resultat kamen die Forscher nicht intuitiv, sondern durch Auswertung von Textdateien. Und da sie vergleichbare Textqualitäten in elf europäischen Sprachen – und idealer Weise auch eine der Alltagssprache möglichst nahe Ausdruckweise in denselben – analysieren wollte, nutzten sie … Film-Untertitel. Die obenstehende Grafik zeigt die Korrelationen in den elf Sprachen zwischen Wortlänge und Informationsdichte einerseits, und Wortlänge und Häufigkeit andererseits. Dabei wurden verschiedene N-Gramme betrachtet; erst bei Strukturen mit vier Wörtern taucht tatsächlich eine stärkere Korrelation zwischen Wortlänge und Häufigkeit auf, wie ja zu erwarten war (weil kürzere Wörter, wie gesagt, für sich alleine oft nicht genaug aussagen können).
Einfach superkalifragilistischexpiallegetisch, nicht wahr?
Kommentare (58)