Schnell gefragt: Warum sind manche Wörter kürzer als andere? Nicht, dass ich mir darüber bisher viele Gedanken gemacht hätte, aber die Wissenschaft – namentlich der Harvard-Linguist George K. Zipf in seinem Paper The Psycho-Biology of Language – hatte dies damit erklärt, dass häufiger verwendete Wörter, wie etwa die Artikel der, die, das oder Konjunktionen (und, oder) aus rein sprachökonomischen Gründen kurz gehalten werden. Wenn wir jedesmal statt “der” sowas wie “einsolcherwelcher” oder so was sagen müssten, dann wären Konversationen gewiss sehr schwerig. Doch ein Paper mit dem Titel

Word lengths are optimized for efficient communication

, das von Hirnforschern am Massachusetts Institute of Technology verfasst und in den Proceedings of the National Academy of Sciences veröffentlicht wurde, kommt überraschend zu einem ganz anderen Schluss: die Länge der Wörter sei nicht von ihrer Häufigkeit, sondern von ihrem Informationsgehalt abhängig.

i-7334ffd8fdbd33e4928f4987f7fc5719-Fig1.jpg

Simpel ausgedrückt: Je mehr ein Wort für sich alleine schon ausdrückt (nehmen wir mal “Demokratie” als ein willkürliches Beispiel, das ja ein komplexes historisches und politisches Konzept beschreibt und auch ohne weiteren syntaktischen Kontext in seiner Komplexität begriffen werden kann), desto länger ist es. Kurze Wörter hingegen (da nehmen wir mal “gut”, weil ja sicher viele von uns Demokratie als gut empfinden dürften) brauchen viel wahrscheinlicher diesen Kontext – “gut” alleine kann sich auf alles Mögliche beziehen: die moralische Qualität eines Menschen (der gute Mensch von …), den Geschmack einer Speise (“Gute Knödel, Mutti!”), in anderer Schreibweise kann es ein Anwesen sein (“Gut Friedrichsruh”) und so weiter.

Zu diesem Resultat kamen die Forscher nicht intuitiv, sondern durch Auswertung von Textdateien. Und da sie vergleichbare Textqualitäten in elf europäischen Sprachen – und idealer Weise auch eine der Alltagssprache möglichst nahe Ausdruckweise in denselben – analysieren wollte, nutzten sie … Film-Untertitel. Die obenstehende Grafik zeigt die Korrelationen in den elf Sprachen zwischen Wortlänge und Informationsdichte einerseits, und Wortlänge und Häufigkeit andererseits. Dabei wurden verschiedene N-Gramme betrachtet; erst bei Strukturen mit vier Wörtern taucht tatsächlich eine stärkere Korrelation zwischen Wortlänge und Häufigkeit auf, wie ja zu erwarten war (weil kürzere Wörter, wie gesagt, für sich alleine oft nicht genaug aussagen können).

Einfach superkalifragilistischexpiallegetisch, nicht wahr?

flattr this!

Kommentare (58)

  1. #1 s3absti8n
    11. Februar 2011

    ich dachte immer das heißt superkalifragilistischexpiallegorisch 😉

  2. #2 Jürgen Schönstein
    11. Februar 2011

    Nö, nur bei Chris Howland hieß es so, im Musikaltext (und im Film) wird die oben zitierte Variante des originalen supercalifragilisticexpialidocious verwendet.

  3. #3 JPeelen
    12. Februar 2011

    Nach meiner Erinnerung (als Fernsehzuschauer) gab es zwei deutsche Textfassungen.

    Die “super….allidetisch” reimt sich im weiteren Liedtext auf “synthetisch”;
    die “super…allegorisch” reimt sich dann auf “rhetorisch”.

    Die erste Version scheint mir die ältere. Später wurde dann (zumindesten im Fernsehen) nach meinem Eindruck nur noch die “…allegorisch” Version gesungen. Chris Howland ist in dieser Sache definitiv unschuldig.

  4. #4 Stefan W.
    12. Februar 2011

    Ich protestiere gegen die Idee, Wörter würden für sich genommen mehr oder weniger bedeuten, und zwotens, dass man das an ihrer Länge messen kann.

    Tiere z.B. müßten dann alle gleich lange Namen haben, oder? Das Reh wie das Krokodil. Ein Humbug, wie man sofort sieht.

    Sicher – “Bär” und “Nordarfrikanischer Dünensteppbär” und solche Spezifikationen findet man immer wieder, und da ist ein längeres Wort spezifischer. Aber wenn ich eine Aussage zu Bären allgemein mache, dann sage ich eben ‘Bär’ und nicht ‘Braunbar, Waschbär, Grizzly, Kragenbär und Brombär’ (… sind putzige Raubtiere …), also wohnt einem Braunbär nicht notwendig mehr Informationsgehalt inne, als einem generischen Bär.

    Es dürfte ja dann keine Kaffeekännchen geben wie ‘Nu’ und ‘Moment’, die unterschiedlich lang sind.

    Oder was ist der unterschiedliche Informationsgehalt von “USA” und “Vereinigte Staaten von Amerika” (besser: “Vereinigte Staaten Amerikas”)?

    Wie misst man denn den Informationsgehalt – außer mit der Wortlänge?

  5. #5 Jürgen Schönstein
    12. Februar 2011

    @Stefan W.
    Ich bin kein Linguist, würde aber die Vermutung wagen, dass beispielsweise Namen und Abkürzungen (vgl. USA) nicht als Wörter zählen. Ist bei Scrabble übrigens auch so … 😉
    Was die Tiernamen angeht, müsste man sicher erst mal untersuchen, ob nicht tatsächlich im Krokodil eine andere “Informationsdichte” als im Reh drin ist – ich hab’ mal auf die Schnelle nach der Herkunft des Wortes Krokodil gesucht, und finde hier, dass der Name von Herodot aus den Begriffen für “Kiesel” (kroke κρόκη) und “Wurm” (drilos δρῖλος) zusammengesetzt wurde. Damit ist es mehr als ein Name, es beschreibt auch ein typisches Verhalten (das Rumliegen auf den Kieselbänken) dieser Tiere.

  6. #6 Jürgen Schönstein
    12. Februar 2011

    @JPeelen
    Wir haben beide unrecht, wenn ich’s recht lese: Die Originalversion (falls man bei einer synchronisierten Fassung überhaupt den Begriff “original…” verwenden darf) ist superkalifragilistigexpiallegetisch. Der Film stammt aus dem Jahr 1964 – und im gleichen Jahr kam Chris Howlands Version superkalifragilistischexpiallegorisch als Schallplatte (falls sich noch jemand erinnert: das waren die schwarzen Dinger mit ‘ner Rille drauf und Löchern in der Mitte) heraus.

  7. #7 Dr. Webbaer
    12. Februar 2011

    Webbaer den Artikel nur grob überflogen haben, aber hierzu etwas:

    Wie misst man denn den Informationsgehalt – außer mit der Wortlänge?

    Information ist im Gegensatz zu den Daten erkenntnisobjektabhängig. Information kann aus Daten abstrahiert werden, Informationen werden zu Daten kodiert – eine bestimmte Kodierung vorausgesetzt.

    Die Datenlänge sozusagen, die typischerweise in Bit bemessen wird, gibt dann den Informationsgehalt.

    Wobei wir auch schon bei der Antwort auf Ihre Frage sind: Die Kodierung, die einer Regel für Zuordnungen entspricht, kodiert reale Zuordnungen, Zuordnungen sind bspw. a (aus b) verhält sich zu c (aus d) wie e (aus f).

    Wenn wir also den Informationsgehalt einer Personenangabe prüfen, dann kommen wir auf a (aus Anzahl der lebenden oder insgesamt gelebt habender Menschen) verhält sich zu Religion (aus Anzahl der existierenden oder existiert habenden Religionen) wie “1:1” (aus Anzahl der verfügbaren Entitätsrelationen).

    Wenn es also bspw. 20G Menschen gibt und 1k Religionen und nur eine zulässige Entitätsrelation, dann ist die Angabe “Harry Wittgenstein war Scientologe” grob geschätzt 32 Bit “schwer”.

    Klar, Information ist erkenntnissubjektabhängig, existiert nicht für sich alleine, Erkenntnissubjekte müssen vorab Entitäten und Attribute feststellen. Das geschieht willkürlich.

    MFG
    Dr. Webbaer

    PS: Gerade noch ein paar Ungenauigkeiten bemerkt, höhö, aber die bleiben mal stehen – ganz uninformiert
    PPS: Ein Mehr an Information korreliert sicherlich mit der Wortlänge. Das hat Dr. Webbaer eigentlich immer schon vermutet. – Hmm, aja, interessante These, die Häufigkeit der Verwendung könne die Wortlänge mitbestimmen. Wird wohl auch richtig sein.

  8. #8 rolak
    12. Februar 2011

    Zwei Anmerkungen:

    • <Warum sind manche Wörter kürzer als andere?> Na weil ‘alles gleichlang’ langweilig ist
    • <“der” statt “einsolcherwelcher” … sehr schwerig> jein – das klassische Gegenbeispiel ist die Aufblähung “ich” zu “meiner einer” die nicht zu Schwierigkeiten, sondern nur zu Erheiterung führt (obgleich diese clips im Deutschen gräßlich verhackstückt wurden).

    😛

  9. #9 Stefan W.
    12. Februar 2011

    > Wenn es also bspw. 20G Menschen gibt und 1k Religionen und nur eine zulässige Entitätsrelation, dann ist die Angabe “Harry Wittgenstein war Scientologe” grob geschätzt 32 Bit “schwer”.

    Das ist, wenn ich’s recht verstanden habe, eine unzulässige Interpretation des Sachverhalts. Mit 32 Bit kann ich eine sehr begrenzte Zahl unterschiedlicher ganzer Zahlen darstellen. Dazu muss der, der diese Bits liest, wissen, dass es eine Zahl sein soll, die ich darstelle.

    Wenn ich mich mit dem Empfänger vorher verständige, dass ein Bit ‘1’ bedeutet ‘Die gesammelten Werke der Familie Mann’ und ‘0’ bedeutet ‘Nicht die gesammelten Werke der Familie Mann’ – dann kann ich die gesammelten Werke der Familie Mann mit einem Bit kommunizieren, vorausgesetzt der Empfänger hat einen alternativen Zugang zu diesen.

    Aus einer prinzipiell unendlichen Informationsmenge kann ich mit 32 Bit natürlich nur sehr unübersichtlich wenig übermitteln, ausser der Empfänger errät was ich meine.

    Wenn mir jmd. ein Attachment an die Email anhängt ‘unbenanntes Dokument’, welches aus 32 bit besteht, dann würde ich selbst wenn dort HW=S drinsteht nicht auf die Idee kommen, dass ‘Harry Wittgenstein ist Scientologe’ gemeint sein könnte.

    Gut – jetzt setzt sich ein Webbär hin, und schickt mir genau so eine Email! Dann käme ich schon auf die Idee, das er damit sagen will ‘ich habe Recht’. Nur: Der Absender ist ja dann eine weitere Information, der ganze Kontext der Information. Was davon soll man bitte in Bits umrechnen?

    Wenn ich eine begrenzte Menge an Sprachen habe, und an Kodierungen, dann kann ich sagen, dass ich mit UTF-8 von den lebenden Sprachen diese und diese und … – summa summarum soundsoviele Wörter abbilden kann.

    Aber die Bits die ich brauche um die Wörter durch eine DSL-Leitung zu jagen sagen natürlich nur etwas über die Wörter aus, nicht über den Sinn.

    Die Idee den Informationsgehalt eines Wortes objektiv bestimmen zu wollen, ohne Sprecher und Hörer zu berücksichtigen, ohne den Kontext zu berücksichtigen – das ist so, wie wenn ich sage: “mein Sohn ist an einem Mittwoch geboren, berechne die Wahrscheinlichkeit, dass es heute Marzipantorte zum Essen gibt”.

    Oder: ‘Kalkwerk’.

    Und wo ist jetzt mehr Information?

  10. #10 Dr. Webbaer
    12. Februar 2011

    @Stefan W.
    Sie scheinen Old Webbaer schon richtig verstanden zu haben. Wobei nicht klar ist, was die Gegenrede entstehen lässt. Sie fragen nach dem Informationsgehalt von Sachverhalten und haben die Antwort des Webbaeren bekommen. Bezüglich dieses Ja/Neins bezüglich des Bekommens dieser Antwort wäre ein Informationsgehalt von 1 Bit feststellbar.

    Die Information bleibt aber eine Information und nichts anderes, auch wenn der Informationsgehalt nach der (effizientesten) Kodierung 1 Bit “Datenlänge” ist.

    Kommen Sie mit der Kodierung konzeptionell nicht klar?

    MFG
    Dr. Webbaer

    PS: Wir bearbeiten hier schon “Bits&Sachverhalt” und nicht “Bits&Wörter”, oder? – Wenn wir nur auf die Wortlänge schauen, die Kodierung kennen, dann stellen wir fest, dass Wortlänge und Information im Sinne von “Bits&Wörter” linear ansteigen. Das ist trivial. So kann das – “die Länge der Wörter sei nicht von ihrer Häufigkeit, sondern von ihrem Informationsgehalt abhängig” (siehe Artikeltext) – doch nicht gemeint sein, oder?
    PPS: Wb aber noch nicht ganz schlau geworden aus dem Artikeltext. Möglicherweise auch auf dem ganz falschen Dampfer, denn für sein Verständnis der Sache gibt es keine Messanordnung. 🙂

  11. #11 Dr. Webbaer
    12. Februar 2011

    Nachtrag:

    Zu diesem Resultat kamen die Forscher nicht intuitiv, sondern durch Auswertung von Textdateien. Und da sie vergleichbare Textqualitäten in elf europäischen Sprachen – und idealer Weise auch eine der Alltagssprache möglichst nahe Ausdruckweise in denselben – analysieren wollte, nutzten sie … Film-Untertitel.

    Vermutlich ist es das hier, was Unbehagen erzeugt, da haben wohl welche Filmsequenzen grob und willkürlich auf ihre Komplexität der Gespräche gesetzt und sind dann in die “Untertitel”.

    Also, wenn John Wayne in karger Umgebung zusammen mit einem anderen durch die Gegend reitet und Sachen sagt wie “Der Kaffee ist wie Scheiße.” oder “Sie sind nach Süden geritten.” oder “Meine Schulter schmerzt.”, dann ist das weniger komplex als wenn Lt. Data und dieses Brillenmännchen von Star Trek sich über “Warp 2” austauschen. Gell?

    Oder vielleicht doch nicht. 🙂

    Tja, schwierig zu verstehen, das Unbehagen scheinen Old Webbaer und Stefan W. zu teilen…

    MFG
    Dr. Webbaer

  12. #12 Stefan W.
    12. Februar 2011

    Antworten findet man nur, wenn man umgekehrt denkt: Was machen die Autoren, was wollen sie? Publizieren! Wie machen sie das? Wie funktionieren Zitierkartelle?
    Und die Informatiker, die gehofft haben, aus ihrer Mechanik eine Wissenschaft zu machen, und das Atom der Informationsverarbeitung zu finden.

    Tja – Hybris, die zu Pseudowissenschaft wird. Der Informationsgehalt von Sachverhalten ist eben nicht quantifizierbar. Da kann man mit dem Fuß aufstampfen, aber es geht nicht.

    32 Bit kann auch ein einzelnes Pixel sein. 8 Bit für RGB und 8 für Transparenz. Oder eine Steueranweisung für ein Midigerät. Oder ein Datum. Der Sinn ist aber eine Qualität, keine Quantität – auch wenn kaum noch wer gewillt ist da einen Unterschied auch nur sehen zu wollen.

  13. #13 Dr. Webbaer
    12. Februar 2011

    @Stefan W.
    Sie haben’s ein wenig hart ausgedrückt, aber so ähnlich waren auch Dr. Webbaers erste Gedanken beim Überfliegen des Artikels.
    Webbaer dann auch nie Bock gehabt haben ins Paper zu schauen, ein kurzer jetziger Blick – “In Fig. 1, we approximated the information content of each word by using
    an unsmoothed N-gram model trained on data from Google (40)” – bestätigt aber die böse Ahnung.

    MFG
    Dr. Webbaer

  14. #14 rolak
    12. Februar 2011

    32 Bit kann auch ein einzelnes Pixel sein.

    ist (dem Rest des posts angemessen) inhaltsleerer Buchstabensalat, auch wenn bei genügend Vorabwissen geschlossen werden kann auf das (wohl) gemeinte

    Abhängig vom Grafikformat kann ein einzelnes Pixel durchaus auch als 32-bit-Zahl dargestellt werden

    denn allgemein können 32 Bit auch reichlich Bier sein.

  15. #15 michael
    13. Februar 2011

    > denn allgemein können 32 Bit auch reichlich Bier sein.

    Aber morgens ist soviel Bier wohl ungesund. Bauch und Kopf sind aber wenigstens nicht inhaltsleer.

  16. #16 BreitSide
    13. Februar 2011

    xxx

  17. #17 BreitSide
    13. Februar 2011

    yyy

  18. #18 Radicchio
    13. Februar 2011

    da hat der herr zimpf ja leider die agglutinierenden sprachen außen vor gelassen.
    ein schelm …

  19. #19 XyloCephalus
    14. Februar 2011

    Agglutinierende Sprachen sind vermutlich wegen ihres andersartigen Phrasen- und Satzbaus nicht so einfach und nicht direkt mit den geläufigen flektierenden Sprachen vergleichbar. Dazu müsste man wohl ganze Phrasen als geschlossene Partikel im Vergleich verwenden (vermute ich mal, ohne Linguist zu sein), und eben nicht einzelne Wörter, und das scheint nicht Aufgabe der oben genannten Arbeiten gewesen zu sein. In der gezeigten Grafik sind noch nicht einmal die urgermanisch-skandinavischen Sprachen Isländisch, Norwegisch und Dänisch genannt (Schwedisch dagegen schon), bei denen als eine Gemeinsamkeit der bestimmte Artikel im sprachlichen Normalfall quasi-agglutinierend als Suffix angehängt wird. Allerdings werden im Diagramm nur 2-, 3- und 4-Gramme (Buchstabengruppen) betrachtet, die Verlängerung durch Affixe zählt hier kaum.

    Sprachökonomie scheint unter Sprachwissenschaftlern offenbar ein alter Hut zu sein, sowohl in natürlichen wie in technischen künstlichen Sprachen. In unserer Alltagssprache ist es uns geläufig, verkürzte Sätze zu benutzen, indem redundante Phrasen weggelassen werden. Ähnlich auf Wort- oder Morphemebene, nur dass es dort längerer Zeiträume bedarf, bis in einem Sprachraum ein einheitliches Sprechen und Verstehen für ein bestimmtes Wort entsteht. So nimmt man an, dass die ältesten in einer Sprache entwickelten Begriffe auch die wichtigsten und dann oft die kürzesten sind, meist einsilbig: “Mann, Frau, Kind, Haus, Weg …”, häufig die Personalpronomina, alle Artikel, viele Adjektive.

    Die im Artikel genannten Argumente scheinen mir voneinander abzuhängen: Menschen wohnt ein Drang inne Sprache ökonomisch zu kürzen (mal als Postulat genommen), es kann aber nur soweit gekürzt werden, dass essentieller Informationsgehalt nicht verloren geht, mit anderen Worten: geschriebene Grapheme bzw. gesprochene Phoneme noch deutlich von denen anderer Begriffe unterscheidbar sind. Der Informationsgehalt wird dabei also eher technisch dadurch bestimmt, dass Worte noch voneinander verschieden sind, und zusätzlich durch die Häufigkeit in einem (durchschnittlichen) sprachlichen Kontext, so dass die Gesamtlänge des Geprochenen oder Geschriebenen möglichst kurz ausfällt.

    Insofern irritiert mich die Gegenüberstellung von Häufigkeit und Informationsgehalt in obigem Text, da diese mMn zusammengehören, zumindest in statistischer Analyse. Es sei denn, mit dem Informationsgehalt sind auch emotional, gesellschaftlich oder sonstwie verknüpfte Informationen gemeint, was aber mit exakten Methoden und Statistik nur schwer fassbar ist.

  20. #20 XyloCephalus
    14. Februar 2011

    @Stefan W., Webbaer:
    Antworten findet man auch, wenn man einfach nur eine statistische (mithin wissenschaftliche) Analyse betreibt, dabei aber nicht seine Erwartungshaltung an die Interpretation gefundener Ergebnisse überzieht. Es geht hier wohl lediglich um die Bedeutung von Wörtern beim Informationstransport (gleichwertig: bei ihrer Speicherung), wenn man also seine in Sätzen formulierte Aussage an jemanden übermittlen möchte, so dass er zunächst dem Worte nach versteht.

    Der Sinn in einem Kontext geistigen Verständnisses ist jedoch etwas anderes, es geht dann um die Aussageintention eines Satz-Sprechenden und die Interpretation des Satz-Hörenden, und beide sollten für ein korrektes Verständnis den Sprachverstehenden derselben Sprache angehören. Trotzdem gibt es genau dort genug Ansätze für Missverständnisse, völlig unabhängig vom reinen Sprachtransport. Das gilt auch für das Lesen beliebiger Stücke geschriebener Sprache, ein Problem des Diskurslevels beim gegebenen Text, und möglicherweise des Bildungslevels beim erhofften Rezipienten.

    Exakte Naturwissenschaften sind keine Pseudowissenschaften, und der Informationsgehalt von Sachverhalten ist in deren Rahmen ganz genau quantifizierbar, wobei der Linguist oder auch der Informatiker sich (in den meisten Fällen des Durchschnitts) sehr wohl über die Grenzen des Verfahrens und seiner Aussagen bewusst ist oder es zumindest sein sollte. Keine Hybris also an dieser Stelle, Anwendung eines belastbaren Wissens und gesunden Menschenverstandes vorausgesetzt.

    Hybris entsteht doch wohl erst bei denjenigen, die uns aus Gewinnstreben heraus weismachen wollen, wie toll die Anwendung von Techniken nun gerade mal für die Menschheit sei, mMn also bei gewinn- und produktionsorientierten Berufen und beruflichen Positionen wie Bankern, Wirtschafts-“Machern”, Wirtschaftsingenieuren etc., vielleicht auch bei weniger seriösen Sachautoren (nicht zu verwechseln mit Fachautoren).

    Die in Jürgen Schönsteins Text erwähnten Artikel wollen nach meinen Verständnis nicht anderes tun als eine naturwissenschaftliche Aussage mit intendierter bewusst begrenzter Reichweite zu machen. Ganz wichtig ist bei deren Verständnis natürlich stets, die verschiedenen Wirkebenen einer Aussage nicht zu verwechseln und nicht zu vermischen. Doch das erfordert eine gewisse Übung, ich gebe es zu.

  21. #21 Stefan W.
    14. Februar 2011

    Was soll das denn sein, ‘die Bedeutung von Wörtern beim Informationstransport’, ‘so dass er zunächst dem Worte nach versteht’?

    Beim Transport, also etwa in einer Email wird nichts verstanden. Wenn ich sage ‘Ein Reh steht auf dem Weg’, dann drücke ich die Bedeutung in deutscher Sprache aus, vernünftig, wenn der Leser auch deutsch kann. Um es schriftlich zu kommunizieren benutze ich Symbole, die der Leser wieder zurückübersetzt. Dabei werden Worte aus Buchstaben zusammengesetzt.

    Die Behauptung war doch, dass lange Wörter mehr Information transportieren, dass ein Krokodil also informativer wäre als ein Reh.

    Was ist das für ein Blödsinn? Beim Transport kommt es auf den Sinn nicht an, auch eine Festplatte versteht überhaupt nicht, was ein Krokodil oder ein Reh ist.

    Der Blödsinn besteht darin eine Qualität, nämlich die Bedeutung des Satzes, in eine Quantität zu übersetzen. Das kann nicht gehen, sowenig wie man aus dem Gebrauchswert einer Ware den Tauschwert bestimmen kann.

  22. #22 Dr. Webbaer
    14. Februar 2011

    Antworten findet man auch, wenn man einfach nur eine statistische (mithin wissenschaftliche) Analyse betreibt, dabei aber nicht seine Erwartungshaltung an die Interpretation gefundener Ergebnisse überzieht.

    Danke für den Hinweis! – Ja, die Sache ist soft, aber das heißt ja nicht, dass man sich nicht demzufolge versuchen soll.

    Es kann durchaus sein, dass diese Arbeit in naher Zukunft -bspw. bei der KI, die Suchmaschinen unterliegt- satte Mehrwerte generiert oder zumindest den einen oder anderen aus dem Publikationsteam herauslösen lässt, der dann später satte Mehrwerte auf genannte Art und Weise generieren hilft.

    Abgenervt hat aber die im Artikel bestimmte Feststellung, dass “die Länge der Wörter sei nicht von ihrer Häufigkeit, sondern von ihrem Informationsgehalt abhängig” ist.
    Es ist kein Schwarz/Weiß, auch wenn der werte Inhaltemeister fast schon routinemäßig so vorträgt.
    Der Artikeltext “irritiert”, fürwahr!

    Danke für Ihre Nachricht!

    MFG
    Dr. Webbaer

  23. #23 Jürgen Schönstein
    14. Februar 2011

    @WB
    Letzte Warnung! Eigentlich sollten Sie hier gar nicht mehr schreiben, erinnern Sie sich? Und ich hatte Sie mehrfach gebeten, die ad hominems (wie sie in Sätzen wie: “Abgenervt hat aber die im Artikel bestimmte Feststellung, dass “die Länge der Wörter sei nicht von ihrer Häufigkeit, sondern von ihrem Informationsgehalt abhängig” ist. Es ist kein Schwarz/Weiß, auch wenn der werte Inhaltemeister fast schon routinemäßig so vorträgt” ausgedrückt werden) zu lassen. Ich habe keine Behauptungen aufgestellt, sondern die Behauptung anderer referiert – in der indirekten Rede. Wenn Sie den Unterschied nicht kapieren, dann tut’s mir leid, aber ich habe schon mehrfach gesagt, dass ich hier keine Privatstunden in deutscher Sprache erteile – schon gar nicht gratis.

    Also nochmal: Entweder, Sie bleiben bei der Sache und lassen Ihre – absolut nicht witzigen – Seitenhiebe gegen mich, oder Sie werden statt Ihrer Kommentare nur noch folgendes vorfinden:You’re finished, Johnny O’Connor!
    Ab Minute 1:55 werden zwar nicht Sie, aber alle anderen verstehen …

  24. #24 Dr. Webbaer
    14. Februar 2011

    @Jürgen Schönstein
    Wenn Sie sich vom Inhalt der Arbeit absetzen und nur zitiert haben, ist das OK! – Möglicherweise hat Dr. Webbaer Ihnen hier unrecht getan. Sr, no Prob!

    Aber Sie werden verstehen, dass Gleichsetzungen oder Vergleiche mit Hundekot, denen Sie Dr. Webbaer hier ausgeliefert haben, eine gewisse Verhärtung bewirken können?!
    Falls ja, danke! – Eine Rücknahme und Entschuldigung dieser Schamlosigkeit wäre ebenfalls nett.

    MFG
    Dr. Webbaer

  25. #25 DerLustigeRobot
    14. Februar 2011

    Falls ich da mal zur computertechnischen Seite und Informationskodierung beitragen darf, davon verstehe ich nämlich etwas.

    “Beim Transport kommt es auf den Sinn nicht an, auch eine Festplatte versteht überhaupt nicht, was ein Krokodil oder ein Reh ist.” — Stefan W.

    Zunächst ist zu fragen, in welcher Schicht wir uns befinden, auf welcher Ebene “Sinn”, “Semantik” oder “Bedeutung” gemeint ist (die existieren auch als technische Begriffe). Ein Transport- oder Speichersystem ist nicht dafür geschaffen, sprachliche Intentionen auf der Ebene eines menschlichen Gehirns zu verstehen. Für eine Festplatte ist ein Wort eine Zeichenfolge, die irgendwo in einem Speicherblock vorkommt, das Gespeicherte ist einfach so wiederzugeben, wie es eingeschrieben wurde (und eigentlich gibt es auf dieser Ebene nur Speicherblöcke der immer gleichen Länge, keine Worte menschlicher Schriften).

    Die Behauptung war doch, dass lange Wörter mehr Information transportieren, dass ein Krokodil also informativer wäre als ein Reh.

    Der technische Informationsgehalt ist einfach die Anzahl der Zeichen, “Krokodil” ist eine Buchstabenfolge zu 8 Zeichen, “Reh” hat 3, also hat das erste Wort 8/3 soviel Information wie das zweite. Nichts anderes, nicht Höheres. Etwas neues kommt jedoch dabei heraus, wenn versucht wird Informationen zu komprimieren. Meist wird eine Umkodierung nötig, und dazu müssen die jeweiligen Häufigkeiten der Wörter in einem Gesamttext gezählt werden. Mit anderen Worten, die Häufigkeit eines Wortes bestimmt den relativen Informationsgehalt, und dieser drückt sich in der optimierten Kodierung oft in veränderten Wortlängen aus.
     
    Analog dazu sehe ich das, was uns die oben vorgestellten Studien sagen wollen. Die technische Länge eines geschriebenen Wortes könnte in Relation zu dessen Häufigkeit und damit relativem Informationsgehalt in einem sprachlichen Kontext stehen (eine mögliche These), oder aber durch die Möglichkeiten bestimmt sein, Worte im sprachökonomischen Sinne zu komprimieren, also die Länge zu optimieren (eine andere These). Eine weitere Möglichkeit wäre durchaus, wie oben in einem Kommentar angedeutet wurde, dass sich ein realistischer Informationsgehalt erst auf einer hohen interpretatorischen Ebene ergibt. Das kann aber nicht ad hoc schon angenommen und vorausgesetzt werden!

    Der Blödsinn besteht darin eine Qualität, nämlich die Bedeutung des Satzes, in eine Quantität zu übersetzen.

    Falsch! Es geht nicht darum, die Interpretation auf Ebene eines menschlichen Gehirns zu bewerten, es geht “nur” darum, den kodierten Informationsgehalt auf der angemessenen Ebene des Informationsaustauschs zu quantifizieren. Das bedingt wohl auch das Missverständnis mit dem Transport-Zitat. Diese Darstellung ist meine Auffassung der angeführten Studien. Jeder Versuch, “Bedeutung” auf einer höheren geistigen Ebene mit dem Informationsgehalt in Verbindung zu bringen, geht darüber hinaus und ist eventuell mit philosophischen Mitteln anzugehen, nicht jedoch mit technischen.

  26. #26 Stefan W.
    15. Februar 2011

    @DerLustigeRobot: Bis zum 2. Zitatblock komme ich mit. Aber dann…
    Ich fürchte Ihren Begrifflichkeiten kann ich schon nicht folgen. Aus der Zeichenanzahl machen Sie nicht einfach ‘Information’, auch nicht ‘Informationsgehalt’, sondern ‘technischer Informationsgehalt’. Ich finde den Begriff Zeichenanzahl, oder Wortlänge wesentlich anschaulicher, und ‘technischer Informationsgehalt’ ist schon eine Falle, weil man annehmen könnte, es sei was anderes. Aber gut – wenn man jmd. blenden will ist das kein schlechter Begriff.
    Bei der Komprimierung komme ich wieder mit. In einem Text, in dem jedes zweite Wort ‘Krokodil’ ist, ersetzt man Krokodil mit x, und spart so eine Menge Zeichen – nur muss man in einem Header o.dgl. deklarieren, dass x mit Krokodil zu ersetzen ist. X selbst würde man mit \x kodieren müssen, und \x durch \\\x zum Beispiel, und dann müßte man sehen, ob das noch ökonomisch ist. Es muss auch nicht x sein, aber im Prinzip funktioniert es so. Ab 3 Krokodilen könnte sich das schon auszahlen.
    Es geht aber nicht um die Komprimierung von Texten.

    Außerdem hätten wir dann eine Abhängigkeit von der Häufigkeit. Das wurde aber genau bestritten: “die Länge der Wörter sei nicht von ihrer Häufigkeit, sondern von ihrem Informationsgehalt abhängig.”

    Und weiter: “Je mehr ein Wort für sich alleine schon ausdrückt …” – das Wort für sich alleine soll bereits etwas ausdrücken, und dann vergleicht Herr Schönstein ein Substantiv, “Demokratie” mit einem Adjektiv “gut”. Das ist dann entsprechend seltsam rübergekommen – man fühlt sich auf den Arm genommen.

    Sie beschreiben erst, dass die Komprimierbarkeit von der Häufigkeit abhängt, und dann, dass die Wortlänge nicht von der Häufigkeit, sondern der Komprimierbarkeit (wohl) abhängt.

    Sehen Sie jetzt den Widerspruch?

  27. #27 Dr. Webbaer
    15. Februar 2011

    Der Blödsinn besteht darin eine Qualität, nämlich die Bedeutung des Satzes, in eine Quantität zu übersetzen.

    Falsch! Es geht nicht darum, die Interpretation auf Ebene eines menschlichen Gehirns zu bewerten, es geht “nur” darum, den kodierten Informationsgehalt auf der angemessenen Ebene des Informationsaustauschs zu quantifizieren.

    Die Arbeit hat erkennbar Quantifizierungen vorgenommen, Herr W. nagt jetzt erst einmal nachvollziehbarerweise daran, dass Information, die erkannterweise beim Erkenntnissubjekt entsteht, gar nicht quantifizierbar ist. – Jetzt stellen Sie fest, lieber Robot, dass “es darum geht” die Quantifizierung beim Austausch der kodierten Information vorzunehmen. – Irgendwie ging es wohl auch darum Zipfs Beobachtung anzugreifen. Was denken Sie denn dazu: Die Länge der Wörter ist von vielen (unendlich vielen?) Faktoren abhängig, der eine vermutlich die Häufigkeit der Verwendung, ein anderer die Information, die die Sprache trägt, ein dritter vielleicht die Situation (wissenschaftlicher Vortrag, Flirt, “am Stammtisch”, milit. Einsatz), ein vierter die sog. Mentalität, ein fünfter die jeweilige Sicht der Kommunikationspartner aufeinander u.s.w.u.s.f.

    Und wie man auf der Ebene der Sprache, also der Informationsübertragung, also des Senden und Empfangens von Daten, Information(!) quantifiziert, ist dem Webbaeren immer noch nicht ganz eingeleuchtet…
    Man geht wohl davon aus, dass in gleichen Situationen (Film-Untertitel) mehr oder weniger das gleiche gesagt wird – in unterschiedlicher Sprache. Naja, warum nicht?

    MFG
    Dr. Webbaer

  28. #28 Dr. Webbaer
    15. Februar 2011

    Mini-Nachtrag:

    Der technische Informationsgehalt ist einfach die Anzahl der Zeichen, “Krokodil” ist eine Buchstabenfolge zu 8 Zeichen, “Reh” hat 3, also hat das erste Wort 8/3 soviel Information wie das zweite. Nichts anderes, nicht Höheres. Etwas neues kommt jedoch dabei heraus, wenn versucht wird Informationen zu komprimieren.

    Information (vs Daten) komprimieren? – Information wird zu Daten kodiert und aus Daten dekodiert/abstrahiert man Information. – Redundante Kodierung = mehr Information?

  29. #29 Stefan W.
    15. Februar 2011

    Ich habe mir das Paper mal angesehen, und verstehe vieles nicht, aber zur Idee der Information habe ich eine Frage, die man vielleicht abklären kann, ohne dass ich selbst ein derartiges Studium absolviere.

    Verstehe ich das richtig:

    Der Informationsgehalt des Wortes bemisst sich danach, wie wahrscheinlich es in einem Kontext ist? Also beispielsweise, wenn es um Bären geht, und man läßt weg, dass es sich um Braunbären handelt. Aber in solchen Texten ist oft von Braunbären die Rede – sagen wir zu 20%. Zu 40% wären es aber Grizzlys, zu 5% Kragenbären, und noch weniger bei den übrigen Bärensorten? Dann würde jetzt die Statistik sagen: Grizzly ist keine große Information, denn da wären die meisten Leute von selbst drauf gekommen. Braunbär schon eher, da ja häufiger Grizzly richtig ist, aber Braunbären stimmt auch häufiger, als Kragenbär usw.?

    In Texten über ‘Frau Merkel’ wäre dagegen ‘Bundeskanzlerin’ von geringem Informationsgehalt, weil es so vorhersehbar ist? Außer der Text wäre 20 Jahre alt, dann wäre das ja nicht so wahrscheinlich. Oder ein Österreichischer Text von 1990. Wobei auch nicht unerheblich ist, in welchem Verhältnis ‘Frau Merkel’ zu ‘Bundeskanzlerin’ in dem Text steht, um zu sagen, wie groß der Informationsgehalt nun ist – oder?

    Ich kann im ersten Moment nachvollziehen, dass man so den Informationsgehalt eines Wortes bestimmen will, aber wenn man die Häufigkeit von Wortkombinationen bestimmen will, dann muss man ja soundsoviele Texte zusammentragen, um das auszuzählen, und dann muß man eine Auswahl treffen, welche Texte das sind, was man reinnimmt, und was nicht, von wann und wo, welche Genren – Bücher, Kochbücher, Kalender, Zeitungen, Radiosendungstranskripte, Briefe, … – wo fängt man an, und wo hört man auf? Nimmt man nur ähnliche Texte wie den, den man untersucht? Der ähnlichste Text dafür ist aber der Text selbst, und jede Auswahl wird willkürlich sein.

    Wenn man sagt, dass ein Wort einem Text nicht viel Information zufügt – geht man dann vom Horizont des Senders, des Empfängers, oder wovon geht man aus?

    Vielleicht täusche ich mich ja darin, wie die Information gemessen wird – mir scheint das kein objektives Mass sein zu können, geschweige denn ein quantifizierbares.

  30. #30 Dr. Webbaer
    15. Februar 2011

    Der Informationsgehalt des Wortes bemisst sich danach, wie wahrscheinlich es in einem Kontext ist?

    Wie Information gemessen wird, stand weiter oben, Moment, …, hier, Wahrscheinlichkeiten spielen hier keine Rolle, sondern stattdessen die Anzahl der möglichen Zustände, “Der Informationsgehalt einer Nachricht entspricht der Anzahl der Ja-/Nein-Fragen, die man bei einer idealen Fragestrategie braucht, um sie zu rekonstruieren.” (Wikipedia – klingt nicht schlecht, btw)

    Und diese Anzahl der möglichen Zustände ist nun einmal (auf die Realität bezogen) nicht zu bemessen, nicht einmal grob zu schätzen. Die Versuchsanordnung scheint dann auch einen anderen Weg zu gehen und die Kodierung oder Daten (die Sprache) zu analysieren.

    Wenn man gar nichts über die Bedeutung der Sprache weiß, kann man dennoch analytisch herausfinden, dass bspw. kurze Wörter häufiger benutzt werden als lange Wörter.

    Und so ähnlich, also fast frei von der wirkliche Bedeutung der Wörter, muss auch die Studie vorgegangen sein. – Nur dass diese Google heranzieht als Relevanzquelle – “we approximated the information content of each word by using
    an unsmoothed N-gram model trained on data from Google” – d.h. die setzen den Informationsgehalt eines Wortes (auf Basis einer Google-Aggregation) voraus um mit dieser Voraussetzung die Länge der Wörter zu prüfen.

    Das Wort “Information”, das im Artikel wie auch in der Studie verwendet wird, ist hier ein wenig irritierend.

    MFG
    Dr. Webbaer

  31. #31 DerLustigeRobot
    15. Februar 2011

    @Stefan W., Webbaer:
    “Information” ist ein Begriff, der einerseits umgangssprachlich oft schwammig verwendet wird, hinter dem andererseits in naturwissenschaftlich orientierten Anwendungen aber auch strenge Definitionen stehen. Der Begriff selbst und seine Anwendungsmöglichkeiten sind mit einer ziemlichen Komplexität verbunden, so dass es nicht einfach sein kann, dort etwas schlüssig zu erklären und dabei die Bedeutungsebenen auseinander zu halten.

    Vorschlagen würde ich, für den Anfang den Begriffserklärungen für Information in der Wikipedia zu folgen und dabei auch viele der verlinkten Begriffe aufzusuchen, darunter möglichst alle Wissenschaftszweige, die mit “Information” verknüpft sind. Weiterhin sind Bedeutungen zu “Daten”, “Satz” und “Text”, “Diskurs”, “Sprache” usw. eigentlich auch mit einzubeziehen.

    Ich gebe zu, dass ich einige Begriffe vereinfacht und damit etwas “unscharf” verwendet habe, versucht habe die Sache kurz zu halten, und trotzdem ist es schon lang geworden, da die Vielschichtigkeit irgendwie auseinandergedröselt werden muss. Nach dem Anfang mit den Definitionen werde ich später versuchen, noch einige der Fragen zu beantworten.

  32. #32 Dr. Webbaer
    15. Februar 2011

    @DerLustigeRobot (War das nicht ein Song von den Ärzten?!)
    Sup! – Information ist auf Seiten des Webbaeren schon ein klarer Begriff in diesem Zusammenhang. Gesellschaftlich – ein “Danke für die Info” an dieser Stelle – bedeutet er aber alles und nichts, korrekt!

    Webbaer hat ja ein wenig gepruckelt im vorletzten Post, war nicht ganz zufrieden mit Robot-Freund, Robot-Freund jetzt bitte nicht unlustig werden, äh, wo war er stehengeblieben, …, …, achja: Schauen Sie bitte mal hier im letzten Wb-Post und teilen bitte Ihre Meinung bzgl. des Verständnisses der im Artikel geschilderten Arbeit mit.

    Lag Dr. Webbaer I.E. halbwegs richtig?

    MFG
    Dr. Webbaer

  33. #33 Bullet
    15. Februar 2011

    @WB: nein, das war der lustige Astronat (und er singt ein Lied).

  34. #34 Bullet
    15. Februar 2011

    (dammit)
    @WB: nein, das war der lustige Astronaut (und er singt ein Lied).

  35. #35 Stefan W.
    15. Februar 2011

    @DerLustigeRobot: Die Wikipediaseite habe ich aufgesucht, um auch dort eine nachlässige Haltung zur Vermischung der Begriffe ‘Wahrscheinlichkeit’ und ‘Häufigkeit’ anzutreffen.

    Da habe ich auch meine Fragen. Wenn ich erwarte, dass meine Frau diese Woche, spätestens nächste Woche ein Kind zur Welt bringt, dann soll die Nachricht ‘heute noch kein Kind’ kleiner sein, als ‘ja, heute kam es zur Welt’, weil die Wahrscheinlichkeit für das eine Ereignis größer ist, als für das andere. Ich will es aber genau wissen, und nicht eine Wette eingehen. Wenn meine Frau ins Krankenhaus kommt will ich meinen Arbeitsplatz verlassen, und dorthin fahren. Also brauche ich die exacte Information.

    Außerdem kann man aus historischen Daten erstmal nur Häufigkeiten gewinnen – wenn man das überhaupt, praktisch kann. Dass daraus eine Wahrscheinlichkeit abgelesen werden kann ist nur eine Vermutung, die man ohne Begründung nicht wirklich aufrecht erhalten kann.

    Nur in einem streng formalisierten System kann man m.E. solche Berechnungen aufstellen. Man kann vielleicht für eine Partie Fernschach, bei der e4e5 übermittelt wird die Information berechnen. Im richtigen Leben war aber 30 Jahre lang die Information ‘Revolution in Ägypten’ sehr unwahrscheinlich, und wird dann in wenigen Wochen sehr wahrscheinlich. Abhängig vom betrachteten Zeitraum kommt man also zu ganz unterschiedlichen Bewertungen derartiger Wahrscheinlichkeiten.

    Wer bestimmt, welche Zeiträume betrachtet werden? Woher kommen die Informationen, um die Wahrscheinlichkeiten – ach nein, die Häufigkeiten – zu bestimmen? Ach ja, von Google.

  36. #36 DerLustigeRobot
    15. Februar 2011

    @Stefan W.: Die letzten Fragen sollte ich vielleicht zuerst beantworten, angefangen mit einer Begriffsorientierung der Information.

    Am oberen Ende der Komplexitätsskala, die Menschen (individuell oder gemeinschaftlich) beherrschen können, ist Information etwas sehr ineinander Verwobenes, etwas mit vielen Querbeziehungen untereinander, ein Gebiet zu dem die Begriffe “Wissen”, “Diskurstheorie”, “Rhetorik” usw. passen. Ich möchte das mal eine geistige Informationsebene nennen, indirekt deswegen, weil man dort am ehesten mit Geisteswissenschaften wie Philosophie, Psychologie oder Soziologie weiterkommen wird (übrigens nicht meine Fächer, weshalb ich nicht allzuviel dazu sagen werde), und in diesem hoch angesiedelten Bereich liegt wohl z.B. auch die Informationstheorie der Wissenschaften. Wahrscheinlichkeiten und Häufigkeiten werden dort nur wenig weiterhelfen, vielleicht in der Statistik am Rande.

    Am anderen Ende des Skala befindet sich ein sehr einfaches simples (als Gegensatz zu “komplex”) Modell von Information, ihrer Speicherung und ihrem Transport, die dort also nur eine sehr “kleine” Einheit mit wenigen Wechselbeziehungen sein soll. Ich nenne das mal essentielle Information, weil man versucht auf einen kleinstmöglichen Informationsbegriff zu reduzieren, oder technische Information, weil in diesem Maßstab eben Techniken der Kodierung realisiert werden. Die einfachsten Modelle gehören dabei zu den (technischen) Informationstheorien, der Nachrichtentheorie nach Shannon, den Linguistiktheorien z.B. auch nach Zipf, und anderen.
     
    “eine nachlässige Haltung zur Vermischung der Begriffe ‘Wahrscheinlichkeit’ und ‘Häufigkeit’ …”

    Nennen wir eine Informationseinheit mal ein “Zeichen” (auch anwendbar auf: ein Morphem, eine Silbe, ein Wort, und darauf aufbauende Aggregationen). Die statische Häufigkeit eines bestimmten Zeichens in einem Kontext wie etwa einer Zeichenfolge der Länge N ist die Anzahl der Vorkommen dieses Zeichens geteilt durch N, also p = Anzahl / N ; die Häufigkeiten aller verfügbaren Zeichen muss in der Summe 1 ergeben. Stelle ich mir nun vor, ein beliebiges Zeichen aus der Zeichenfolge zufällig herauszugreifen, dann ist die Wahrscheinlichkeit dafür ein bestimmtes Zeichen zu bekommen gerade identisch mit der Häufigkeit p dieses Zeichens (wir denken statisch und ohne jedes Wissen zu irgendwelchen Nachbarzeichen!). Diese Idee führt zu einer sehr einfachen Definition eines Informationsgehalts unter dem Stichwort “Entropie (Informationstheorie)”, siehe Wikipedia.

    Eine derartige Definition ist eben wirklich nur simpel, beschränkt anwendbar, und passt nur zur Komplexitätsstufe der technischen Information, wo sie dann auch erfolgreich angewendet wird. Auf dem Level geistiger Information kann man jedoch nicht viel damit anfangen. Das Beispiel mit der zu erwartenden Kindesgeburt ist aber derart komplex und beinhaltet dermaßen viel Hintergrundwissen und viele Assoziationen, dass ich es erst gar nicht mit dem simplen Modell zusammenbringen würde. Wahrscheinlichkeit und Häufigkeit in obiger Verwendung haben dort nicht viel verloren. Wenn man dennoch umgangssprachlich von “Wahrschlichkeit” spricht, meint man vermutlich etwas das mehr mit Intuition und Empfindung zu tun hat (eben auch ein mehrdeutig belegter Begriff).
     
    “Nur in einem streng formalisierten System kann man m.E. solche Berechnungen aufstellen.”

    Genau das ist der Punkt. Eben deswegen stellt man ein simples und in irgendeiner Weise “essentielles” Modell auf, um dessen Komplexität noch beherrschen zu können, um also überhaupt noch Berechnen zu können. Die “geistige” Informationsebene ist damit nicht mehr fassbar, dort muss man dann eben mit einer der Geisteswissenschaften drangehen, und man bekommt es dann vermehrt mit Erfahrungen, Hintergrundwissen, Heuristiken und Einschätzungen zu tun. Die “Informationen” dafür, dies leisten zu können, stammen dann aus der gesamten Entwicklung dieser Wissenschaften. Das Revolutionsbeispiel fällt nach meinem Dafürhalten auch wieder in diese Ebene.
     
    “Wer bestimmt, welche Zeiträume betrachtet werden? Woher kommen die Informationen…”;   und von weiter oben:
    “… – wo fängt man an, und wo hört man auf? Nimmt man nur ähnliche Texte wie den, …”

    Für die essentielle oder technische Informationsebene ist genau dies eine methodische Fragestellung, über die sich damit befasste Wissenschaftler vermutlich längere Zeit den Kopf zerbrechen, und die ja auch in dem Paper von Piantadosi et al. angesprochen wird. Ob ich nun über einzelne Buchstaben, über Silben oder ganze Wörter nachdenke, zum Auszählen und bestimmen der Häufigkeiten habe ich generell nicht den Zugriff auf ALLE jemals geschriebenen Texte oder getätigten Sprechakte. Es muss also eine Auswahl getroffen werden, um einen möglichst repräsentativen Textkorpus zu bekommen. Das Paper gibt ein Beispiel für solche Überlegungen, wie sie auch das Autorenteam angestellt hat. Man möchte erreichen eine möglichst gute Annäherung an die Wirklichkeit zu bekommen, und ob das mit einer bestimmten Methode erreicht wird lässt sich immer diskutieren.
     
    Demnächst könnte ich dann etwas mehr zu diesem Paper und damit dem Thema des Blogartikels schreiben, und außerdem auch einige meiner eigenen Behauptungen erläutern oder geradeziehen.

  37. #37 Dr. Webbaer
    16. Februar 2011

    @LustigerRobot
    Schreiben Sie dem Mann doch einfach, dass Information nichts mit Wahrscheinlichkeit, sondern mit der Anzahl der zu beschreibenden möglichen Zustände zu tun hat – und gut iss. Statt sich hier in Informationstheorie zu ergehen und sich an der Sache des Blogartikels vorbeigehend austzumären (BTW: viele schreiben’s mit “h” 🙂 sind Sie gebeten kurz auf das vorgeschlagene oder richtige Verständnis der Studie einzugehen…

  38. #38 Stefan W.
    16. Februar 2011

    Nicht, nicht, Hr. Dr. Webbaer. Da schreibt mal jmd. was über mehr als 3 Sätze ohne dass ich heftig widersprechen muss – lassen Sie mal! 🙂
    Jetzt sind wir an dem Punkt, da Filmutertitel untersucht werden, aber nicht mit einer üppigen Menge Filmutertitel, sondern mit Googletexten wenn ich das richtig sehe, und das riecht mir einfach nach Bequemlichkeit – da muss man nicht erst 100 Filmuntertitel in je 15 Sprachen transkribieren. Zumindest mir riecht das nach einer Kostenfrage.

  39. #39 Dr. Webbaer
    16. Februar 2011

    Lieber Herr W., das hier – “Demnächst könnte ich dann etwas mehr zu diesem Paper und damit dem Thema des Blogartikels schreiben…” – soll der geschätzte lustige Robot aber auch endlich einmal tun.

    Was Information aus Sicht der Informationstheorie ist, darf dabei vorausgesetzt werden.

    Wovon das Paper berichtet ist die Nutzung einer Google-Aggregation, die nur die Relevanz bemessen kann, nie aber die Information an sich. Soweit waren wir aber wohl schon.

    Und wenn die Relevanz gemessen wird, dann ist man fast schon wieder bei Zipf, der feststellte, dass oft benutzte (= relevante, wie der Advocatus Diaboli hier anmerken könnte 🙂 im Durchschnitt kürzer sind als selten genutzte.

    MFG
    Dr. Webbaer (So *ausdemfesterguck* der Winter ist wohl endgültig vorbei, gell, da kommt wohl nüscht mehr…)

  40. #40 DerLustigeRobot
    16. Februar 2011

    Der liebenswerte Webbaer möge es dem Robot bitte verzeihen, dass der nicht im Detail auf jede Frage eingeht. – Ich möchte mich nämlich auf die strukturierten und für mich sehr klaren Fragen des Herrn W. konzentrieren, und es kommt schon allein dort viel Text bei rum. Hierbei werden sich wohl auch noch einige der weiteren Fragen klären. Und ehrlich gesagt, ich verstehe bei den anderen Fragen nicht alles so ganz komplett, und ich möchte doch eine Frage gänzlich verstehen, bevor ich sie zu beantworten versuche.

    Vielleicht zu einer Bemerkung aus einem vorherigen Kommentar vom Webbaeren:

    Und diese Anzahl der möglichen Zustände ist nun einmal (auf die Realität bezogen) nicht zu bemessen, nicht einmal grob zu schätzen.

    Wie weiter oben schon geschrieben, kann man in der Praxis kaum die Häufigkeiten aller jemals gesprochenen und geschriebenen Wörter einer Sprache zählen, man muss sich einen repräsentativen Ausschnitt der Wirklichkeit als Ersatz beschaffen. Das Wie ist dabei die Kunst. Es kann jedoch keinesfalls stimmen, dass man daraus dann nicht grob schätzen könne, denn dann würden die Wissenschftler mit ihrer ganzen Theorie nichts anfangen können, und praktischerweise würde dann auch das zitierte Paper nicht existieren.
     
    Und noch was:

    Schreiben Sie dem Mann doch einfach, dass Information nichts mit Wahrscheinlichkeit, sondern mit der Anzahl der zu beschreibenden möglichen Zustände zu tun hat – und gut iss.

    Nee, das is nämlich gar nicht gut, sondern falsch. Es gibt gar nicht “die Information” und noch nicht mal “die Informationstheorie”, wie viel (zu viel) weiter oben schon deutlich steht. Ein wenig Abgrenzung und Sortierung muss schon sein. Also würde ich hier mal urteilen: Thema verfehlt.
     

    Auf den Blogartikel will ich tatsächlich zurückkommen, sobald ich die Zeit finde. Ich muss nämlich auch noch mal prokrastinationsfrei für Lohn arbeiten. Und ich freue mich über wenigstens einen interessierten Leser. 😉

  41. #41 Dr. Webbaer
    16. Februar 2011

    @DerLustigeRobot
    Tja, dann weiterhin viel Erfolg beim Komprimieren von Information!
    Klar, die Linguisten gehen über die Relevanz und versuchen wahrscheinlich [sic!] so Information anzufassen, für die gälte dann in der Tat: Es gibt nicht “die Information”!

    Also!, wenn Sie doch mal Zeit finden, dann schreiben Sie bitte etwas zur Sache oder zum Paper – lassen Sie vielleicht praktischerweise einen Verweis auf Ihr Angebot zurück, vielleicht sogar im Erfassungsbogen für die Kommentierung. Webbele reingucken werden beizeiten…

    MFG
    Dr. Webbaer

  42. #42 Chris F.
    16. Februar 2011

    Ich verstehe nicht, wieso hier über eine klar umrissene, klar definierte und verständliche Sache soviel Wind gemacht wird. Informationsgehalt wird in dem Paper als die Wahrscheinlichkeit definiert, dass man ein Wort sagen muss, um das zu sagende zu übermitteln. Das hat nichts mit der esoterischen Information eines Stefan W. zu tun und lässt sich an einem reichlich einfachen Beispiel veranschaulichen:
    Man nehme einen Ausruf wie “Was für eine Sch…!” oder eine Aussage wie “mir ist der Geduldsfaden…” und stelle sich die Quizfrage: Wie geht’s weiter? Damit die Kommunikation klappt, muss ich eigentlich gar nicht zu Ende reden. Der Kontext – die Wörter drumrum – machen bereits klar, was kommen wird. Das Wort, das ich nicht sagen muss, trägt also herzlich wenig zur Kommunikation bei. Ist die Information die erfolgreiche Mitteilung dessen, was ich mit den Wörtern sage möchte, dann trägt das nicht gesprochene Wort herzlich wenig Information. Das, und nur das, ist hier mit Informationsgehalt gemeint.
    Ist doch nicht wirklich schwer zu verstehen, oder? Muss man da ob des eigenen Unverständnisses (PISA lässt grüßen) wirklich bücherseitenlang wüste Schmähungen und Dummheiten in Blog-Kommentare posaunen?

  43. #43 DerLustigeRobot
    16. Februar 2011

    @Chris F.:
    Das angeführte Beispiel beschreibt den Kern des Papers gut, dieser Inhalt kommt oder kam aber offenbar nicht bei jedermann an. Auch Jürgen Schönstein hätte sicherlich anders und “technisch informativer” über das Paper schreiben können, das hat er aber möglicherweise gar nicht als seine Aufgabe empfunden; ich sehe da in “Geograffitico” Anmerkungen des Zeitgeistes, oder einen Feuilleton. – Wenn dann jemand aus welchem Grund auch immer noch Fragen hat, kann man doch gerne auch als Dritter aufklären. Und falls einem das Missverständnis eines anderen esoterisch vorkommt (was schon ein Widerspruch ist, wenn derjenige gerade nicht “Insider” ist), dann darf man doch im freundlichsten Fall annehmen, dass einfach nur Wissenslücken und Verständnisprobleme vorliegen. Oder nicht?

  44. #44 Stefan W.
    16. Februar 2011

    @Chris F.: Ich sehe jetzt nicht welchen Grund es gibt, mir Esoterik anzudichten. Davon abgesehen war im Text nicht von stehenden Redewendungen die Rede, bei der ein fehlendes Wort aus dem Rest des Satzes erraten werden kann.

    Schon beim ersten Satz kann da auch ein ‘Schweinerei’, ‘Scheiße’, ‘Scheibenkleister’ stehen um populäre Beispiele zu nennen – da die Sprache aber letztlich jedem alle Freiheiten läßt kann da auch jeder beliebige andere Begriff stehen.

    Und wenn man keine Prozentwerte für Wahrscheinlichkeiten erfinden will, dann muss man eben angeben, woher die Zahlen kommen sollen, und da es um die Untertitel von Filmen ging ist das Verfahren die Zahlen aus irgendeinem Googlekontext zu holen wohl insbesondere eines nicht: wissenschaftlich.

    Es sei denn man hätte zuvor mit einer anderen Studie festgestellt, dass das ein legitimes Verfahren ist.

    Wenn der Untertitel eines Filmschnipsels beginnt “Was für eine …” und mit “Scheiße” endet – wie kann man da überhaupt auf die Idee kommen, für das letzte Wort eine Wahrscheinlichkeit zu ermitteln? Es ist ja bereits auf der Filmrolle, und damit 100% sicher. Der zuschauende Forscher kennt es auch bereits. Welche Wahrscheinlichkeit ist also gemeint? Man unterstellt, es hätte hier ein anderes Wort gewählt werden können? Aber nicht aufgrund des Textes im Original, und drängenden Problemen der Synchronisation, wo die Lippenbewegung möglichst zum Text passen soll, und der Sinngehalt des Originals übertragen wird, sondern in Abhängigkeit von Wörtern die um das Wort herum gruppiert sind?

    Für mich sieht das aus, als wende jemand bewußtlos eine Methode aus einem ganz anderen Kontext an und weiß nicht was er macht, aber hinten purzeln so lustige Zahlen raus, die man gut aufbereiten kann, und dann schreibt man was dazu.

    Aber bitte – ich bin PISA.

  45. #45 DerLustigeRobot
    16. Februar 2011

    @Stefan W. und Interessierte:
    Über die umfangreichen Themengebiete die aus “Information” erwachsen kann man bestimmt ganze Bücher oder Blogartikel schreiben, oder man kann gleich in mehreren Fächern dazu studieren. Es kann aber nicht Aufgabe der Diskussion hier sein, ein ganzes Studium nachzureichen, Faktenwissen kann jede/r selbst lesen. Im Kern ging es um ein bestimmtes Verständnisproblem und um die wesentliche Aussage des im Blogartikel vorgestellten Papers.

    Dazu möchte ich wirklich gleich zurückkommen. Inzwischen habe ich den Knackpunkt um mein eigenes Verständnisproblem herum verstanden, meine ich. Übrigens wird auch in diesem englischen Beitrag von naturenews über das Piantadosi-Paper geschrieben, eine Alternative, die ein wenig anders (und kürzer) die Zusammenhänge ausarbeitet und von Lesern kommentiert wurde (und ich bin mir fast sicher, dass Herr Schönstein dort auch gelesen hat, oh supercalifragilistic…).

    Gestolpert war ich über die Behauptung “die Länge der Wörter sei nicht von ihrer Häufigkeit, sondern von ihrem Informationsgehalt abhängig”, was ich für fast dieselbe Aussage hielt, da Häufigkeit und Informationsgehalt nach meinem Theorieverständnis eng zusammenhängen, wie ich weiter oben geschildert habe. Das bestreitet das Paper auch nicht wirklich, es hat einfach nur eine verfeinerte Theorie aufgestellt, mit dem der hier gemeinte Informationsgehalt genauer dargestellt werden kann. Das schon recht alte von George K. Zipf aufgestellte Zipfsche Gesetz besagt einfach, dass die Häufigkeit des Auftreten eines bestimmten Wortes in einem Text mit der Wahrscheinlichkeit seines Auftretens korreliert ist (wenn man eine Rangfolge bildet, dann umgekehrt proportional zum Rang). Das ist allgemeiner, als ich es oben dargestellt habe, denn es wird nur eine grobe Annäherung postuliert, und dazu eine logarithmische. Der wichtige Punkt dabei ist, dass Zipf von statischen Wahrscheinlichkeiten über den gesamten Text oder sogar für die allgemeinen Sprachverhältnisse ausgegangen ist, und da liegt der Ansatzpunkt des Piantadosi-Papers.

    Das kann man sich mit dem von mir erklärten simplen Wahrscheinlichkeitsmodell folgendermaßen modelliert vorstellen: Eine gedächtnislose Quelle gibt nacheinander die Wörter des betreffenden Textes aus; man spricht hier auch von “Zeichen” oder Symbolen, und man kann dafür auch “Silbe”, “Morphem” oder anderes einsetzen, je nach eigener Aufgabenstellung. (Es geht dabei nicht um ein Modell technischer Realisierbarkeit, praktische oder zeitliche Aspekte spielen keine Rolle, die Quelle produziert lediglich seriell die Symbole einer mathematischen Folge). Man stellt sich dabei vor, dass der zu produzierende Texte gerade ein passender Ausschnitt einer potenziell unendlichen Folge ist, und in diesem Fall werden seine Wörter nacheinander ausgegeben. Die Gedächtnislosigkeit der Quelle bedeutet nun, dass diese noch nicht einmal das vorangehende oder das folgende Wort berücksichtigt, sie ist wirklich vollkommen kontextfrei modelliert. Sinn dieses Modells ist, zu erkennen, dass die Wahrscheinlichkeit mit der ein bestimmtes Wort produziert wird, eine fest eingestellte Größe ist, eben unabhängig von allem anderen, kontextfrei. Sind die Werte dieser Wahrscheinlichkeiten für eine reale Sprache unbekannt, kann man sie näherungsweise ermitteln, indem man in einem passenden Textkorpus die Häufigkeiten auszählt, wie oben weiter dargestellt.

    DAS ist natürlich recht ungenau für eine reale Sprache und berücksichtigt überhaupt nicht die Existenz möglicher Kontextabhängigkeiten (und würde aber für eine rein technische Nachrichtenübertragung auf niedrigem Niveau ausreichen). Genau hier ist der Ansatzpunkt des Piantadosi-Papers: das Modell einer Quelle wird so verändert, dass sie ein “Gedächtnis” von den letzen 1, 2 oder 3 zurückliegenden Wörtern hat, genau in der auftretenden Textreihenfolge der Wörter. Das wird hier der Kontext genannt, und man darf sich keinesfalls vorstellen, dass hier ein geistig höher angesiedelter Kontext von darüber hinausgehenden Querbeziehungen vorliegen würde. Im Text des Papers entspricht dieser Kontext den 2-, 3- oder 4-Grammen von Wörtern; der simpleren Zipf’schen Theorie entsprechen dann formal 1-Gramme.

    Man hat nun die Häufigkeitsanalyse über alle möglichen N-Gramme durchgeführt, und man bekommt dadurch folgende Aussage: wenn ich schon ein Wort (oder 2 oder 3) an einer bestimmten Stelle kenne, mit welcher Wahrscheinlichkeit kann ich dann das Auftauchen eines bestimmten nächsten Wortes vorhersagen? – Dies wird hier als Kontextabhängigkeit verstanden, daraus ist der hier gemeinte Informationsgehalt abgeleitet, und deswegen tauchen im Text des Papers bedingte Wahrscheinlichkeiten auf. Die Länge der Wörter in Buchstaben wird dann in Relation zu den Häufigkeiten gesetzt. Mit ein paar Schlussfolgerungen ist die Aussage des Papers also genauer: die Wortlänge ist nicht (nur) nach Zipf von der globalen oder statischen Häufigkeit der Wörter in einem Text abhängig, sondern viel genauer sogar von nach Kontextabhängigkeiten ermittelten Informationsgehalten (oder bedingten Wahrscheinlichkeiten).
     
    Um es also zusammenzufassen: der im Paper beschriebene Kontext und die davon abgeleiteten Informationsdichten sind noch meilenweit von dem entfernt, was man sich unter einer geistigen Auseinandersetzug mit Kontext im Sinne von menschlichem Textverständnis vorstellen würde, aber es ist auf jeden Fall eine wesentliche Verbesserung der uralten Theorie mit den statischen Häufigkeiten. Und man kann sicherlich schon ein wenig mehr damit anfangen, z.B. Datenbasen vereinfacht auf automatisierte Weise bauen, wie es das Paper auch anführt. Man wird sich der sicherlich immer noch vorhandenen Begrenztheit des Verfahrens bewusst sein oder werden, und soweit das so ist, wird auch keine Hybris entstehen.

    Das Paper beschreibt also immer noch ein System, bei dem man “Informationsgehalt” nicht über menschliches Verständnis definieren kann oder will. Ob dann die von Jürgen Schönstein angeführten Beispiele von “gut” und “Demokratie” so sehr zum Level des Papers passen, kann man sich schon fragen (und insofern war jeder Protest und alles Hinterfragen auch berechtigt), aber vielleicht kann man diese Gegenüberstellung auch als Ansporn zum Nachdenken sehen, als kleine Provokation um über die zukünftige Bedeutung solcher Forschung für das Verhältnis Mensch – Maschine zu spekulieren. Siehe auch die Diskussionen zum Supercomputer Watson.

  46. #46 Stefan W.
    17. Februar 2011

    @DerLustigeRobot:

    Vielleicht sollte ich kurz rekapitulieren, was ich meine verstanden zu haben, um das zu überprüfen.

    Man nimmt an ein Text würde von einer bewusstlosen Maschine stammen die nicht weiß was sie sagt, oder besser, weil einfacher, schreibt. Sie spuckt Texte aus, und man sieht sich immer nur 3, 4 oder 5 Wörter an, und versucht aus 2, 3 oder 4 Wörtern auf das dann folgende zu schließen.

    Dies tut man mit einem großen Vorrat an Beispieltexten, in denen man einfach die Häufigkeit abliest, und postuliert, dass dies die Wahrscheinlichkeit sei, mit der auch diesem Text zu begegnen ist.

    Jetzt wurden aber doch Filmuntertitel untersucht, und diese wurden nicht mit Filmuntertiteln der gleichen Epoche verglichen, sondern mit Texten einer ganz anderen Herkunft. Gedruckte Texte, vornehmlich. Welche Epoche? Man kann doch nicht annehmen, dass das automatisch passen wird.

    Übrigens finde ich das Beispiel im englischen Text wunderbar:

    So the word ‘nine’ in ‘A stitch in time saves nine’ contains less information than it does in the phrase ‘The word that you will hear is nine’, because in the first case it is highly predictable – when it comes, it doesn’t significantly add to the information already in the phrase.

    Ich konnte die ‘nine’ nämlich im ersten Satz überhaupt nicht vorhersagen. Es ist also sehr vom Hörer/Leser abhängig, ob ein Wort vorhergesagt werden kann, bzw. vom Kontext der ganzen Kommunikation. Und ob ein fehlendes oder falsch erwartetes Wort wichtig ist, oder nicht, kann auch ohne Kontext nicht entschieden werden. Wenn in einem Rezept ein Eßlöffel Salz statt Mehl genommen wird, weil Salz hier wahrscheinlicher scheint – guten Appetit.

    Vor allem verstört mich aber, aus einem fertigen Text ein Wort – gedanklich – zu entfernen, und dann zu behaupten, es gäbe eine Wahrscheinlichkeit dafür, dass jetzt in diesem Text an der Stelle ein Wort auftaucht, und dass diese Wahrscheinlichkeit, mit der das Wort dort aufzutreten man berechnet, die Information bemißt, die das Wort transportiert.

    Ich fühle mich eher bestärkt im Eindruck, dass da Pseudowissenschaft betrieben wird, als widerlegt. Auch wenn man so immer einen Informationsgehalt berechnen kann – einen Sinn hat das halt nicht. Und dann auch noch willkürlich irgendwo das Datenmaterial für die Rechnung herholen, wo es gerade billig verfügbar ist – methodisch ist das völlig unsauber.

  47. #47 Jürgen Schönstein
    17. Februar 2011

    @Alle
    Um den Faden beim letzten Einwand von Stefan W. aufzugreifen: Ich war von der Methodik, ganz laienhaft betrachtet, auch nicht gerade überzeugt. Obwohl ich die Erklärung, warum sie den Google-Datensatz mit Wörtern aus der Filmuntertitel-Datenbank “kalibriert” haben, doch ganz plausibel fand – erstens kommen im Internet, aus einer Reihe leicht nachvollziehbarer Gründe, eine große Masse von Worten und Wortgruppen in einer nicht zufälligen Häufigkeit vor: die Elemente www. und .com sind beispielsweise Bestandtteil vieler Web-Adressen; standardisierte “Disclaimer” (Datenschutz-Bestimmungen, Impressa etc.), die vorgeschriebener Bestandteil vieler Webseiten sind (und deren Formulierung oft juristisch, nicht linguistisch bestimmt wird) – all dies verzerrt die Google-Datensätze. Filmuntertitel hingegen reflektieren, in der Summe, eher den Wortschatz der tatsächlich gesprochenen Sprache. Diesen Teil verstehe ich. Probleme habe ich allerdings mit der Definition der Informationsdichte, die mir hier beinahe tautologisch definiert scheint: Weil ein Wort länger ist, mehr Zeit bei der Aussprache oder Niederschrift beansprucht, andererseits aber eine relativ konsistente generelle Informationsdichte (d.h. vermittelte Information pro Zeiteinheit) in der Sprache angenommen wird – so habe ich jedenfalls das Element P(C, W) in der Herleitungsformel der Papers verstanden – muss ein längeres Wort quasi zwangsläufig eine höherer Informationsgehalt zugeteilt bekommen. Demnach definert Länge den Inhalt und Inhalt die Länge – und das sowieso nur zu einem geringen Teil der Sprache: Nur etwa zehn Prozent der Variabilität in Wortlänge lässt sich mit Piantadosis Ansatz erklären; das ist zwar drei mal so effizient wie Zipfs Erklärungsansatz, aber dennoch gibt es weit mehr Ausnahmen als regelbestätigende Wörter. Und genau deshalb, um meine Skepsis gegenüber dieser Erklärung auszudrücken – und nicht ohne Ironie, die offenbar zu verborgen blieb, als das sie erkennbar wurde – habe ich das sinnfreie Kunstwort aus “Mary Poppins” an den Anfang und das Ende gestellt (und da kommt man fast zwangsläufig drauf, ohne dies irgendwo anders abschreiben zu müssen).

  48. #48 Chris F.
    17. Februar 2011

    @Jürgen Schönstein:
    P(C, W) ist die bedingte Wahrscheinlichkeit (P), dass ein Wort (W) in einem Kontext (C) folgt. Der Kontext ist dabei eine bestimmte Anzahl von vorausgegangenen Wörtern (die N-Gramme). In dem Paper wird dargestellt, dass ein Zusammenhang dieser Wahrscheinlichkeit für Ws mit der Wortlänge dieser Ws existiert. Kurzum: Es gibt einen Zusammenhang zwischen der Anzahl an verschiedenen Wortfolgen in denen ein Wort auftreten kann und dessen Wortlänge. Das ist der Kern. Alles andere ist Diskussion der Art “das erscheint uns auch kognitiv aus diesem und jenen Grund plausibel”. Was u. a. über die Dauer ein Wort zu sprechen gesagt wird, ist in dem Paper lediglich ein vermuteter Erklärungsansatz für den beobachteten Zusammenhang – aber eben nicht Gegenstand der beschriebenen Forschung.

  49. #49 DerLustigeRobot
    17. Februar 2011

    Was die im Paper verwendeten Verfahren angeht, sollte man vielleicht etwas differenzieren. Mathematisches Werkzeug wie Statistik und der Umgang mit Wahrscheinlichkeiten sind in endlosen Arbeiten entwickelt worden, und es reicht hier die Angabe des Verfahrens bzw. einiger Formeln. Schwieriger sind Fragen der Auswahl der Datengrundlage, und das ist ja hier an einigen Stellen auch angekreidet worden. Manches davon mag evtl. nur vom Fachmann (Linguist? Statistiker?) beurteilt werden, und ich habe da die pragmatische Einstellung, dass Berufkollegen der Autoren den Artikel ziemlich sicher kritisch unter die Lupe nehmen werden, und gefundene Fehler an geeigneter Stelle (häufig sind es Gegen-Papers) aufzeigen würden.

    Bei der Verwendung von Google-Daten und einem Lexikon von Filmuntertiteln habe ich keine abschließende Meinung, da auch nicht allzu viel im Paper dazu ausgesagt wird. Kostengründe oder Praktikabilitätsfragen mögen damit reinspielen, und falls damit ein Problem entstehen sollte, wird sich das in den eben genannten Kritiken finden. Meine Idee zur Verwendung ist ein wenig ein “Zusammenreimen”: bei der Google-Datenbasis erwarte ich, dass dort bereits die N-Gramme mit den gezählten Häufigkeiten zur Verfügung standen. Benötigt wird doch eine riesige Datenbasis, um einigermaßen repräsentativ zu sein, und es muss die Textreihenfolge von bis zu 4 Wörtern bekannt sein. Das auszählen zu lassen erfordert schon einen großen Zeit- und Speicheraufwand, und falls Google solche Daten fertig lieferte, wäre es ein Vorteil (Forscher haben weder Geld noch Zeit).

    Bei der Wahl einer Basis von Filmuntertiteln rätsel ich ein wenig mehr, aber es ging wohl auch darum Wortgruppen in verschiedenen Sprachen zu finden, die eine möglichst enge Übersetzung zueinander darstellen, sozusagen der tausendfache Rosettastein. Untertitel sind bekannt dafür, recht knapp sein zu müssen, und in den meisten Fällen wird die Übersetzung vermutlich sowohl knapp als auch exakt angelegt worden sein. Die anschließende Filterung der Google-Datenbasis ist wieder einfach: zum einen werden nur N-Gramme aus dem Filmtitelwörterbuch benötigt, und außerdem verwendete lt. Text Google auch “sinnfreie” Nichtwörter á la “aaa”. Die Frage nach der Repräsentativität der gefilterten Daten bleibt, und im Zweifelsfall muss man eben einengen auf “gilt nur für einen Korpus aus Filmtiteln”.

    Auf keinen Fall halte ich das für Pseudowissenschaft, zumindest das Werkzeug scheint okay zu sein. Man darf nur eben, und ich wiederhole mich da, die Interpretation auch der Anwendbarkeit nicht zu weit treiben. Chris hat einige Punkte dazu angemerkt. So viel ist damit noch nicht erreicht, es ist die Verbesserung und Fortschreibung einer vorhandenen Erkenntnis (von Zipf), und ein Schritt auf dem Weg, dabei immer weiter zu gehen. Wissenschaft ist ständig im Umbruch und in der Verbesserung (sollte sie zumindest sein), und darauf teilhabend aufmerksam zu machen ist mit ein Sinn der Scienceblogs, und anderer mehr. Die Gefahr ist vielleicht manchmal gegeben, mit der spekulativen Übertragung auf unser Alltagsleben ein wenig zu weit zu gehen. Aber auch Wissenschaftler und Journalisten spielen manchmal gerne mit Gedanken.

     
     
    @Stefan W.: Der Rekapitulation stimme ich im Großen und Ganzen zu. Sehr schön die Auffassung einer “bewusstlosen Maschine”, aus genau dem Grund habe ich die gedächtnislose und später gedächtnisarme Quelle eingefügt; mir schien der Vergleich mit einem Sprecher bzw. einem Leser von Text damit leichter zu fallen.

    Nur eine kleine Korrektur: es waren 2-, 3- und 4-Gramme, also 1, 2, oder 3 Wörter, nach denen die Wahrscheinlichkeit für das nächstfolgende bestimmt wurde. Im Übrigen bin ich mir aus dem Paper heraus nicht so ganz sicher, ob ausschließlich Kombinationen mit vorangehenden Wörtern bestimmt wurden. Theoretisch ist es auch möglich, einen Kontext mit nachfolgenden Symbolen oder eine Mischung zu verwenden. Sinnvoll wäre das, da ein Sprecher auch im kleinen Maßstab plant, inbesondere z.B. in Sprachen, wo etwa Adjektive einem Substantiv vorangestellt werden.

     
    @J. Schönstein:
    Die Überlegungen zu den Gründen für die Anwendung der Datenbasen finde ich recht gut, und es ergänzt wohl etwas meine eigene Spekulation. Das Zusammenbringen von relativer Worthäufigkeit (oder Vorhersagewahrscheinlichkeit) und der Wortlänge in Buchstaben finde ich dagegen eher unproblematisch. Beide Werte werden durch unterschiedliche und getrennte Ansätze berechnet und als Tupel im Diagramm zusammengebracht, im Fall der N-Gramme die Wahrscheinlichkeit für das “vorhergesagte Wort”. Für mich sieht das nach einer unabhängigen Berechnung ohne Zirkelschluss aus, und darauf kommt es doch an.

    Die Informationsdichte ist letztlich die bedingte Wahrscheinlichkeit für das Auftreten eines Wortes im Kontext, und in der Auswertung korreliert mit nichts anderem als der textuellen Wortlänge. Die Zeitlänge hat damit nichts zu tun, wie Chris F. ja auch anführt, das ist lediglich ein weitergedachter Übertragungsgedanke. Auch nach meiner Auffassung zumindest.

     
    @Chris F.: Danke für die zutreffenden Bemerkungen, und das so genial kurz. Derart knappe Darstellung sollte ich auch noch mal üben, und ich muss zugegeben, meine Kommentare auch etwas heiß gestrickt zu haben. Allerdings war auch Ziel, die Sache ein klein wenig ausführlicher und wenig mathematisch formalisiert darzustellen. Daher auch der scheinbar unnötig eingefügte Teil mit der plappernden Wort-Quelle.

  50. #50 Stefan W.
    18. Februar 2011

    @DerLustigeRobot: Wie kommt es, dass ich meine, dass meine Kritik noch nicht richtig von Ihnen verstanden wurde?

    a) Google:
    Wenn ich in der Fußgängerzone Überwachungskameras hätte, und Millionenfach Begegnungen von Personen aufzeichne. Jetzt nähme ich die Daten, und analysierte ein Fußballspiel mit lediglich 23 Personen und eigenen Gesetzmäßigkeiten, und treffe Aussagen über Begegnungswahrscheinlichkeiten auf Grund der Daten aus der Einkaufszone. Das ist meine Kritik.

    Das ist auch eine qualitative Frage, und keine quantitative. Daten, die nicht representativ sind, werden es nicht auf magische Weise dadurch, dass man mehr davon nimmt.

    b) Wahrscheinlichkeit:
    Wenn ich eine Filmrolle bekomme, auf der Casablanca mit Untertiteln drauf ist, und “I look into your eyes” ist dort mit “Schau mir in die Augen” übersetzt, dann ist die Wahrscheinlichkeit für das Wort “Augen” – egal wieviele Worte man davor oder dahinter betrachtet, 1, weil es ein Ereignis der Vergangenheit ist, das bereits feststeht. Wenn es eine verbreitete Ansicht unter Sprachforschern ist, das es nicht 1 ist, dann benutzen sie Statistik falsch. Das lässt sich auch nicht damit entschuldigen, dass es alle so machen – es ist dennoch falsch.

    Sagt man, man stelle sich nur unwissend, und wolle jetzt beurteilen, was eine gute Wette auf ‘Augen’ wäre, dann kann man sich Daten von Google besorgen, die aus alle möglichen digital erfassten Texten besteht. Aber wieso schränkt man die Datenbasis nicht auf Filmuntertitel ein? Das müsste ja eine qualitativ bessere Auswahl darstellen, auch wenn es weniger Daten sind – es ist ja v.a. weniger Müll dabei: Betriebsanleitungen für Videorekorder, oder Dissertationen von Kriegsministern. Es sei denn Du könntest zeigen, dass N-Gramm-Häufigkeiten unabhängig vom Kontext sind. Man würde sich also bemühen Statistiken zu Filmuntertiteln zu bekommen, besser zu Filmepen, besser zu Filmepen der 40er Jahre aus Hollywoodstudios.

    Nur ändert es am prinzipiellen Missstand nichts, dass die Untertitel bereits fertig sind, und man erstmal erklären müsste, was mit Wahrscheinlichkeit für das Auftreten eines Wortes, dass schon da ist, gemeint sein soll.

    Und als Metaproblem sehe ich im Raum stehen: Welchen praktischen Nutzen kann man mit diesem Informationsbegriff, der Informationen quantitativ beziffern will, erzielen? Oder bleibt das ein akademisches Getue, eine Art Numerologie?