Hinweis: Dieser Artikel ist ein Beitrag zum ScienceBlogs Blog-Schreibwettbewerb 2016. Hinweise zum Ablauf des Bewerbs und wie ihr dabei Abstimmen könnt findet ihr hier.
sb-wettbewerb

Das sagt der Autor des Artikels, über sich:
Keine Angabe

——————————————
Die Informationstheorie ist eines der eher trocken erscheinenden Themen der Informatik. Tatsächlich steckt sie voller Begriffe wie Entropie oder Informationsgehalt. Mich selbst hatte bei der ersten Bekanntschaft besonders die Tatsache irritiert, dass der Informationsgehalt in Bits gemessen wird, also der selben Einheit, die auch die kleinste Speichereinheit in Computern bezeichnet Ein solches – ich nenne es mal binäres Bit, auch wenn das doppelt gemoppelt ist, da Bit für binary digit steht, aber es löst hoffentlich die Doppeldeutigkeit auf – kann entweder den Zustand 0 oder 1 haben. Doch der Informationsgehalt eines einzelnen binären Bits kann von 0 bis theoretisch Unendlich reichen. Warum das möglich ist, will ich mit diesem Artikel versuchen zu erläutern.

Ich beginne direkt einmal mit der Formel, die tatsächlich gar nicht mal so lang ist:

formel

Dabei ist x das zu betrachtende Zeichen, I der Informationsgehalt, px die Auftrittswahrscheinlichkeit von x und a die Basis des verwendeten Zahlensystems (beim Binärsystem also 2, beim Dezimalsystem 10 und bei deutschen Wörtern 30, wenn man Groß-/Kleinschreibung ignoriert aber ä,ö,ü und ß mit einbezieht). Das Ergebnis ist die Anzahl der Zeichen (die jeweils a verschiedene Werte haben können), die (mit dem Vorwissen über die Wahrscheinlichkeiten) mindestens benötigt werden, um die Informationen zu speichern oder zu übertragen. Überlicherweise wird für a einfach 2 verwendet, damit ist das Ergebnis die Anzahl der Binärziffern der diese Information entspricht, die Einheit ist also Bit. Verwendet man eine andere Basis erhält man auch eine andere Einheit, entsprechend dem Zahlensystem.

Der Informationsgehalt eines Zeichens ist also davon abhängig, wie hoch die Auftrittswahrscheinlichkeit für dieses Zeichen ist, das heißt, wie hoch die Wahrscheinlichkeit ist genau dieses Zeichen an dieser Stelle zu erhalten. Je niedriger die Wahrscheinlichkeit ist, desto höher ist der Informationsgehalt. Ein einfaches Beispiel, in folgendem Wort fehlt lediglich der letzte Buchstabe: “Wahrscheinlichkei_”. Nun, jeder der das Wort kennt (das werden vermutlich Alle sein) wird fast automatisch das fehlende “t” einsetzen. Die Auftrittswahrscheinlichkeit des “t” war also sehr hoch, sein Informationsgehalt daher sehr gering. Ein weiteres Beispiel, wieder fehlt lediglich der letzte Buchstabe: “Kei_”. Was könnte da nun folgen? Geht man die Buchstaben durch, merkt man, dass mehrere Wörter möglich sind, beispielsweise “Keil”, “Keim” oder “Kein”. Hier ist der Informationsgehalt des letzten Zeichens also höher, da mehrere Buchstaben gleich wahrscheinlich sind. Da das Wort alleine steht hilft auch der Großbuchstabe nicht bei der Identifikation, was direkt zum nächstens Beispiel führt, diesmal ein Satz: “Sie hielt die Tür mit einem Kei_ offen.” Angenommen, der Verfasser hat keinen Fehler gemacht, fällt das Wort “kein” allein schon wegen des Großbuchstabens raus (es macht aber hier auch keinen Sinn). Ein Keim wäre vermutlich wenig geeignet, eine Tür offen zu halten, übrig bleibt also nur der Keil. Obwohl sich am Wort nichts geändert hat, ist nur durch den Kontext der Informationsgehalt des “l” gesunken.

Betrachten wir nochmal das einzelne Wort “Kei_”: Welcher Buchstabe hätte an der letzten Stelle den höchsten Informationsgehalt? Den höchsten Informationsgehalt hat das Zeichen mit der niedrigsten Auftrittswahrscheinlichkeit, welches ist hier also am unwahrscheinlichsten? Das lässt sich nicht mit Sicherheit beantworten, ein sehr guter Kandidat wäre jedoch das “q”. Es ist (laut Wikipedia, dem kann man in diesem Fall denke ich auch ohne weitere Quelle vertrauen) der seltenste Buchstabe in deutschen Texten und es gibt auch kein deutsches Wort “Keiq”. Es erscheint möglicherweise paradox, aber obwohl dadurch nur ein Unsinnswort entstanden ist, trägt das “q” viel Information. Das ergibt sich jedoch direkt aus der Definition des Informationsgehalts: Das q ist an dieser Stelle unerwartet, es passt in kein bekanntes Muster und ist daher etwas Neues, sprich eine neue Information. Der Informationsgehalt sagt also offenbar nichts darüber aus, wie nützlich oder wichtig die Information für den Empfänger ist, sondern nur, wie erwartbar sie ist.

An den Beispielen erkennt man vielleicht schon: Der Informationsgehalt ist vom Wissen des Empfängers abhängig. Um ein fehlendes Zeichen passend ergänzen zu können, muss man das Wort schon kennen. Ein Extrembeispiel, diesmal mit einem Binärwort: Stellt euch vor, ihr seid ein Computer und erhaltet eine Nachricht. Ihr wisst bereits mit 100% Sicherheit, dass die Nachricht “01000001” (das ist der ASCII-Code für “A”) lauten wird. Welchen Informationsgehalt wird die Nachricht für euch haben? Die Antwort ist recht trivial: Da ihr bereits sicher wisst, was ihr erhaltet, ist der Informationsgehalt genau 0 Bit. Das ist natürlich idealisiert, denn in Realität könnten immer noch Übertragungsfehler auftreten oder ihr erhaltet doch eine andere Nachricht als erwartet. Dann wären es etwas über 0 Bit, aber nicht viel. Ihr habt also 8 (binäre) Bits übertragen bekommen, die für euch jedoch 0 Bit Information tragen. Die Übermittlung war dementsprechend überflüssig. Diese 0 Bit lassen sich auch mit der Formel bestätigen. Die Auftrittswahrscheinlichkeit ist hier für jedes Zeichen gleich, nämlich 1. Damit ergibt sich:

0_bit

Der Logarithmus von 1 ist immer 0, egal zu welcher Basis.

Wie könnte man den umgekehrten Fall erreichen, also ein Zeichen mit einem unendlichen Informationsgehalt? Dafür bräuchte man ein Zeichen, dessen Auftrittswahrscheinlichkeit gegen 0 geht, die Wahrscheinlichkeit also unendlich klein (aber nicht 0!) ist. Das ist natürlich wieder in Realität nicht machbar. Genauso wie bei einem Zeichen, das eine Wahrscheinlichkeit von genau 0 hat. Erhalten wir es dennoch, dann hat es keinen unendlichen Informationsgehalt, sondern wir haben einen Widerspruch im System, das Zeichen hätte schließlich niemals auftreten dürfen.

Bisher ging es nur um den Informationsgehalt eines einzelnen Zeichens oder um eine Nachricht, die uns überhaupt keine Information liefert. Das ist im Normalfall natürlich anders, also braucht man den gesamten Informationsgehalt einer Nachricht. Dieser lässt sich jedoch einfach bestimmen, indem man die Informationsgehalte der einzelnen Zeichen addiert. Mal ein vereinfachtes Rechenbeispiel: Das Wort “Fernbedienung” (es lag halt grade eine vor mir auf dem Tisch) enthält 13 Zeichen, aber nur 9 davon sind unterschiedlich. Das e und das n kommen jeweils drei mal vor. Die Auftrittswahrscheinlichkeiten für e und n sind also 3/13. Für f, r, b, d, i, u und g sind sie nur 1/13. (Das ist jedoch wie gesagt eine vereinfachte Rechnung, da keinerlei Vorwissen einbezogen wird, aber die Rechnung wird so deutlich leichter.) Der gesamte Informationsgehalt ist also:

inf_gehalt_fernbedienung

Für das Wort “Fernbedienung” braucht man also mindestens 4,8 Byte (3 Bit pro Zeichen), deutlich weniger als die 13 Byte, die das Wort in typischer UTF-8-Kodierung braucht. Theoretisch sollte ein Kompressionsalgorithmus (wie beispielsweise der Deflate-Algorithmus, der für ZIP-Archive verwendet wird) also in der Lage sein, den Platzbedarf des Wortes auf 4,8 Byte zu reduzieren, praktisch ist das bei solch einem kurzen Text allerdings nicht der Fall, da Kompressionsverfahren auch immer einen Overhead erzeugen, also selbst Platz verbrauchen um die für die Dekompression benötigten Informationen zu speichern. Im schlimmsten Fall kann eine komprimierte Datei sogar geringfügig größer sein als vorher, das kommt jedoch eher selten vor.

Ein reales Beispiel für Datenkompression: Dieser Text ist 7810 Bytes lang (zumindest war das so, als ich dies hier schrieb). Dass die Zeilenumbrüche im Windows-Stil (bei Linux und Mac ist das anders) immer 2 Byte verbrauchen ignoriere ich hier der Einfachheit halber, das macht die Zahlen nur unschön und ändert sehr wenig. Unkomprimiert braucht jedes Zeichen 8 Bit (UTF-8-Kodierung). Komprimiert als ZIP-Archiv belegt die Datei nur noch 3363 Byte Speicherplatz, das ergibt etwa 3,44 Bit pro Zeichen. Mein Text hat also in etwa einen Informationsgehalt von 3,44 Bit pro Symbol, ich hätte mir also mehr als jedes zweite Zeichen sparen können (Nein, so funktioniert das natürlich nicht. 😉 ). Der bzip2-Algorithmus schafft es sogar mit noch etwas weniger: 3079 Bytes (ca. 3,15 Bit pro Zeichen). Das liegt ja schon sehr nah an dem für “Fernbedienung” berechneten Wert und zeigt, dass die Algorithmen schon sehr gut arbeiten.

Jetzt stellt man sich vielleicht die Frage: Welcher Text würde denn einen Informationsgehalt haben der auch seinem Platzbedarf entspricht, sprich, was lässt sich überhaupt nicht komprimieren? Die Antwort: Zufallszahlen. Probiert es aus: Werft 1000 Münzen, schreibt die Ergebnisse als einzelne Bits in eine Datei (Ja, ich weiß, das geht mit normalen Texteditoren nicht aber wer einen HEX-Editor hat kann es probieren) und versucht das zu komprimieren. Wenn ihr keine Lust habt 1000 Münzen zu werfen (das geht doch ganz schnell), verwendet einen echten Zufallszahlengenerator wie beispielsweise random.org (was echte Zufallszahlengeneratoren von Pseudozufallszahlengeneratoren unterscheidet ist noch ein anderes Thema).

Was ich über die Kompressionsverfahren geschrieben habe gilt natürlich nur für verlustfreie Verfahren, wie beispielsweise ZIP. Verlustbehaftete Verfahren (zum Beispiel MP3 oder JPEG) dagegen tricksen mit der menschlichen Wahrnemung und reduzieren tatsächlich die Information, entfernen also nicht nur Unnötiges. Wird das jedoch geschickt gemacht fällt es uns nicht weiter auf, aber technisch gesehen sind Informationen verlorengegangen.

Ich hoffe, dass das Konzept der Information damit ein wenig klarer geworden ist. Es ist ein sehr komplexes Thema, aber trotzdem, wie ich finde, sehr interessant!

Kommentare (36)

  1. #1 rolak
    8. Oktober 2016

    Doppeldeutigkeit

    Da existiert keine Doppeldeutigkeit – da der Informationsgehalt einheitslos ist, eine nackte Zahl, wie schon an der definierenden Formel ersichtig. Er bezeichnet nur die Mindestzahl der zur Übertragung/Darstellung benötigten Bits.

    Die Antwort: Zufallszahlen.

    Äääh – nein. Auch eine Folge von 1000mal ‘0’ ist eine Zufallszahl, wenn der Zufall es so wollte, und kann selbstverständlich hocheffizient eingedampft werden. Auch in anderen, von mir aus ‘normal’eren Folgen treten typischerweise Wiederholungen kurzer Sequenzen auf, die eine sinnvolle Anwendung eines KompressorAlgorithmus´ zulassen.
    Ein wesentlich sicherer Kandidat ist ein von just dem zu testenden Kompressor erzeugtes Komprimat.

    das geht mit normalen Texteditoren nicht

    Aber sicher doch: Ein Text nur aus zwei verschiedenen Zeichen, egal ob jetzt [01]* oder [U2]* ist zumindest für Kompressoren derart¹ äquivalent zu einer entsprechenden Bitfolge, daß ein ‘es geht’ durchaus angemessen ist.

    Ansonsten aber eine schöne Hinführung zum Konzept ‘Information’!
    _____
    ¹ ja ja, unmögliche Steigerung, sollte es nur verdeutlichen.

  2. #2 Robert
    8. Oktober 2016

    Mir sind spontan Kreuzworträtsel eingefallen. Die Auftrittswahrscheinlichkeit von x oder Y oder Qu ist ja viel niedriger. Das gesuchte Wort ist dann viel leichter zu finden, wenn ich diese Buchstaben habe. Die Auftrittswahrscheinlichkeit von Vokalen ist größer als die von Konsonanten, weil es nur 5 gibt.
    Ds st lcht. Mit etwas Übung kann man auf die Vokale verzichten.
    Lösung : Das ist leicht.
    Wieso kann man dann das Wort schnell erkennen, wenn die Auftrittswahrscheinlichkeit größer ist? Es müsste doch umgekehrt sein?

  3. #3 Hoffmann
    8. Oktober 2016

    Der Informationsgehalt ist vom Wissen des Empfängers abhängig. … Bisher ging es nur um den Informationsgehalt eines einzelnen Zeichens oder um eine Nachricht, die uns überhaupt keine Information liefert.

    An dieser Stelle wird deutlich, dass es zwei Bedeutungen des Begriffs “Information” gibt:

    Zum einen der rein mathematische Wert der Eintrittswahrscheinlichkeit als Anzahl der nötigen Versuche, durch reines Raten die richtige Belegung zu finden.

    Zum anderen eine über Sprache vermittelte Nachricht bezüglich eines bestimmten Sachverhalts der Realität.

    Wenn man beide Bedeutungen miteinander vermischt und ohne Ankündigung verwechselt, kommen gewisse Missverständnisse zustande, die sich dann – wie zitiert – in Formulierungen niederschlägt, die ohne Kontextwissen nicht adäquat verstanden werden können.

    Prominentes Beispiel ist hierbei der Begriff “genetische Information”. Bezeichnet wird damit die Basensequenz der DNA. Darüber hinaus wird jedoch meist noch assoziiert, dass es sich hierbei um eine Art “Bauplan” handelt, der nach Art einer Sprache “gelesen” und als “Anleitung” durch diverse Proteine “verwertet” bzw. “interpretiert” wird. Auch hier also eine Vermischung und Verwechslung von Bedeutung, die zu Fehlinterpretationen führt.

  4. #4 rolak
    8. Oktober 2016

    Auftrittswahrscheinlichkeit von Vokalen ist größer als die von Konsonanten

    Generell nein, Robert, zB ist im Deutschen ‘n’ bummelig 4mal häufiger als ‘o’.

    Wieso .. schnell?

    Weil es so wenige Vokale gibt, die hierzuland auch wesentlich für die Aussprechbarkeit sind, fällt schnell bis sofort auf, wenn einer oder gar alle fehlen. Mit einem derartigem Priming und bedacht der Ungleichverteilung von Buchstabenkombinationen sollte es nicht verwundern, daß das Lesen zwar eher stolpert, doch funktioniert. Ist doch die Sprache eh schon hochredundant.

  5. #5 pdb17
    8. Oktober 2016

    @Robert #2

    > Mir sind spontan Kreuzworträtsel eingefallen. Die Auftrittswahrscheinlichkeit von x oder Y oder Qu ist ja viel niedriger.

    Ja.

    > Das gesuchte Wort ist dann viel leichter zu finden, wenn ich diese Buchstaben habe.

    Eben. Niedrige Auftrittswahrscheinlichkeit => hoher Informationsgehalt.

    > Die Auftrittswahrscheinlichkeit von Vokalen ist größer als die von Konsonanten, weil es nur 5 gibt.

    Quatsch, das hat nichts miteinander zu tun: Bspw. gibt es genau ein “N” und genau ein “Q” im Alphabet. Nach der Logik müssten die also genau gleich oft vorkommen!?

    > Ds st lcht. Mit etwas Übung kann man auf die Vokale verzichten.
    > Lösung : Das ist leicht.
    > Wieso kann man dann das Wort schnell erkennen, wenn die Auftrittswahrscheinlichkeit größer ist?

    Weil damit der Informationsgehalt geringer ist. Geringerer Informationsgehalt => Die Information ist “weniger wichtig”, Du brauchst sie nicht so dringend.

    > Es müsste doch umgekehrt sein?

    Wieso? Du lieferst die Begründung doch schon am Anfang Deines Kommentars selbst: Wenn Du beim Kreuzworträtsel nur einen Buchstaben des Wortes kennst
    – bei Wort A hast Du nur ein “Q” gegeben
    – bei Wort B hast Du nur ein “E” gegeben
    Welches Wort könntest Du dann schneller erraten? Antwort: Wort A, weil das Q seltener ist und damit einen höheren Informationsgehalt hat.

  6. #6 Robgert
    8. Oktober 2016

    pdb17
    Stimmt, mit “Informationsgehalt” wird mein Denkfehler klar.
    Danke!
    Hoffmann
    Also auf das Vorwissen kommt es an.
    Die Buchstabenkombination “ein” ist wahrscheinlich häufiger als “ter”.
    Oder bin ich da auf ein Nebengleis geraten?
    Gibt es einen generellen Unterschied von der Wahrscheinlichkeit von Buchstaben ohne Sinngehalt und solchen innerhalb von Wörtern mit Sinngehalt.

  7. #7 Hoffmann
    8. Oktober 2016

    @ Robgert:

    Die Buchstabenkombination “ein” ist wahrscheinlich häufiger als “ter”.
    Oder bin ich da auf ein Nebengleis geraten?

    In der deutschen Sprache ist “ein” definitiv häufiger als “ter”, aber a priori ist jede Buchstabenkombination mit drei Zeichen aus einem zuvor definierten Zeichenvorrat gleich wahrscheinlich, wenn man sie ausschließlich aus der Perspektive der Informationstheorie betrachtet.

    Das Vorwissen, das Du reklamierst, betrifft Syntax und Semantik (ggf. auch noch Pragmatik, wenn es darum geht, über Nachrichten bestimmte Aktionen auszulösen). In der Informationstheorie wird Information aber als rein statistische Entität betrachtet und nicht als Sinneinheit. Deshalb ist hier Vorwissen über sprachliche Muster (Syntax) und Bedeutungen (Semantik) irrelevant.

    Um hier sauber zu trennen, muss man zuvor definieren, in welchem Kontext man den Begriff “Information” gebraucht.

    Gibt es einen generellen Unterschied von der Wahrscheinlichkeit von Buchstaben ohne Sinngehalt und solchen innerhalb von Wörtern mit Sinngehalt.

    Aus informationstheoretischer Sicht nicht. Eine beliebige Buchstabenkombination hat den gleichen statistischen Informationsgehalt wie ein sinnvolles Wort bzw. ein sinnvoller Text mit gleicher Buchstabenanzahl.

  8. #8 Robert
    8. Oktober 2016

    Hoffmann,
    heißt dann “Informationsgehalt” nur noch: Es ist eine 1 oder es ist eine 0 ? Sonst ohne Bedeutung?

    Rolak
    Ihr Gedanke , dass ein n häufiger ist als ein o hat mich auf den Gedanken gebracht, bei einem Passwort lieber das Wort mit einem o zu beginnen , als mit einem n.

  9. #9 Hoffmann
    8. Oktober 2016

    @ Robert:

    heißt dann “Informationsgehalt” nur noch: Es ist eine 1 oder es ist eine 0 ? Sonst ohne Bedeutung?

    Wenn der Zeichenvorrat nur aus 1 und 0 besteht, ja. Zumindest aus informationstheoretischer Sicht.

  10. #10 Robert
    8. Oktober 2016

    Hoffmann,
    Bei binärer Schreibweise gibt es nur 0 und 1.
    Wenn ich also einen Computer Code zu Grunde lege, dann ist das nicht mehr der Gegenstand der Informationstheorie?

  11. #11 Tobias Wiegard
    8. Oktober 2016

    Anscheinend sind sowohl mein Name als auch mein kurzer Über-mich-Text untergegangen. Mein Name steht ja schon da, also noch der Text: Ich bin Student der Informationtechnologie und hatte einfach spontan Lust hier mitzuschreiben und mal einen Blogartikel auszuprobieren.

    @rolak

    Da existiert keine Doppeldeutigkeit – da der Informationsgehalt einheitslos ist, eine nackte Zahl, wie schon an der definierenden Formel ersichtig. Er bezeichnet nur die Mindestzahl der zur Übertragung/Darstellung benötigten Bits.

    Ja, das ist strenggenommen richtig, aber wenn man sagt “Der Informationsgehalt dieses 8 Bit Zeichens ist 3 Bit” dann ist das für jemanden der nicht mit dem Thema vertraut ist mit Sicherheit verwirrend. Darum habe ich versucht es etwas zu verdeutlichen.

    Äääh – nein. Auch eine Folge von 1000mal ‘0’ ist eine Zufallszahl, wenn der Zufall es so wollte, und kann selbstverständlich hocheffizient eingedampft werden. Auch in anderen, von mir aus ‘normal’eren Folgen treten typischerweise Wiederholungen kurzer Sequenzen auf, die eine sinnvolle Anwendung eines KompressorAlgorithmus´ zulassen.
    Ein wesentlich sicherer Kandidat ist ein von just dem zu testenden Kompressor erzeugtes Komprimat.

    Natürlich können auch 1000 Nullen zufällig sein (mit der Wahrscheinlichkeit 2^-1000), aber wenn du ein Linux (oder Unix falls das bzip2 hat) zur Verfügung hast, probier mal folgendes:
    head -c 1048576 /dev/urandom | bzip2 > randomtest.bz2
    Bei mir war das Ergebnis in 10 Versuchen immer größer als ein MB. Verschlüsselte Containerdateien lassen sich ebenfalls kaum komprimieren, denn die sehen von außen auch pseudozufällig aus.

    Aber sicher doch: Ein Text nur aus zwei verschiedenen Zeichen, egal ob jetzt [01]* oder [U2]* ist zumindest für Kompressoren derart¹ äquivalent zu einer entsprechenden Bitfolge, daß ein ‘es geht’ durchaus angemessen ist.

    Ein Text mit nur zwei verschiedenen UTF-8 Zeichen hat aber maximal 1 Bit Information pro Zeichen und ist damit hochgradig komprimierbar. Bei zufälligen Zeichen sollte nach Kompression zwar Zeichenanzahl=Größe in Bit sein aber das ist nicht mehr so anschaulich.

    Ansonsten aber eine schöne Hinführung zum Konzept ‘Information’!

    Danke! 🙂

    @Hoffmann

    An dieser Stelle wird deutlich, dass es zwei Bedeutungen des Begriffs “Information” gibt:

    Zum einen der rein mathematische Wert der Eintrittswahrscheinlichkeit als Anzahl der nötigen Versuche, durch reines Raten die richtige Belegung zu finden.

    Zum anderen eine über Sprache vermittelte Nachricht bezüglich eines bestimmten Sachverhalts der Realität.

    Ich weiß was du meinst aber ich bin ich mir nicht so sicher wie sehr man das wirklich trennen kann. Durch reines, stupides Raten (Brute-Force) ist es völlig egal wie die Nachricht aufgebaut ist, man wird im Schnitt immer die Hälfte aller Möglichkeiten ausprobieren müssen. Es kommt also immer auf das Vorwissen an. Ein Kompressionsalgorithmus hat als Vorwissen nur den vorliegenden Text, wenn ich mir aber selbst einen Notizzettel schreibe, dann kann ich den so weit komprimieren, dass jemand anders wahscheinlich garnicht weiß was gemeint ist. Ist vielleicht etwas weit hergeholt, das gebe ich zu.

  12. #12 Tobias Wiegard
    8. Oktober 2016

    @Robert

    Bei binärer Schreibweise gibt es nur 0 und 1.
    Wenn ich also einen Computer Code zu Grunde lege, dann ist das nicht mehr der Gegenstand der Informationstheorie?

    Das binäre Zahlensystem ist eigentlich der Computercode schlechthin. Aber natürlich sind auch alle anderen Systeme Gegenstand der informationstheorie. Du könntest ja auch mit dem ternären System arbeiten, dann wären die möglichen Zustände 0, 1 und 2. Das dürftest du dann nur nicht mehr “Bit” nennen, denn ein Bit bezieht sich immer auf das Binärsystem. (“Tit” wäre vielleicht passend, aber das hört sich irgendwie nicht gut an :-D)

  13. #13 Tobias Wiegard
    8. Oktober 2016

    Nachtrag zum Ternärsystem: Laut Wikipedia nennt man eine Ternärziffer “Trit”. Klingt auch deutlich besser als mein Vorschlag.

  14. #14 Robert
    8. Oktober 2016

    Herr Wiegart,
    bei 0 und 1 ist der Informationsgehalt klar. Wie sieht es bei analogen Systemen aus.
    Z.B. ein Musikstück? Wie wird das informationstheoretisch analysiert?
    Vermutung: Noten, Lautstärke ??

  15. #15 Tobias Wiegard
    8. Oktober 2016

    @Robert
    Förmliche Anrede ist nicht nötig, der Vorname tuts. Ich verwende nur grade den vollen Namen, weil ich der Autor bin (mein erster, längerer Kommentar scheint noch in der Moderation zu hängen).

    Was analoge Systeme betrifft: Gute Frage. Ich meine, dass man die Informationstheorie darauf nicht anwenden kann, denn bei kontinuierlichen Signalen kann man ja keine Zeichen finden. Musikstücke (so wie sie auf dem Papier stehen oder als MIDI-Datei abgespeichert sind) sind aber quantisiert und damit eigentlich garnicht analog. Man hat ja einen vorgegebenen Takt, die Noten haben Abstufungen, eine bestimmte Länge und kommen an vorgegebenen Stellen vor. Somit sollte die Informationstheorie anwendbar sein. Allerdings deckt das natürlich nicht alle Spielarten in der Musik ab, wie so oft kann es also noch deutlich komplexer werden.

  16. #16 Robert
    8. Oktober 2016

    Tobias,
    das hatte ich vermutet.
    Vorerst bedanke ich mich.

  17. #17 LasurCyan
    8. Oktober 2016

    Allerdings deckt das natürlich nicht alle Spielarten in der Musik ab

    Was genau meinst Du mit ‘Spielarten’, Tobias? Ehe ich hier anfange zu raten, frag ich lieber..

  18. #18 korg
    8. Oktober 2016

    weil es nur 5 gibt.

    Als Vokalbuchstaben gelten im Deutschen: A, Ä, E, I, O, Ö, U, Ü, Y.

  19. #19 Tobias Wiegard
    8. Oktober 2016

    @LasurCyan

    Was genau meinst Du mit ‘Spielarten’, Tobias? Ehe ich hier anfange zu raten, frag ich lieber..

    Vorallem Dinge wie die Instrumente (absichtlich) leicht zu verstimmen, leicht abseits vom Takt zu spielen, ein anderes Instrument als vorgesehen zu verwenden, den Ton zu verzerren, etc. Es gibt ja einen Grund warum man zwischen einem Komponisten (der die Musik aufschreibt) und einem Interpreten (der seine Variationen einbringt) unterscheidet. Kann natürlich auch die gleiche Person sein, dann ist es halt die Eigeninterpretation. Das kann man natürlich quantisiert speichern (mit ausreichender Samplingrate kann man eigentlich alles quantisieren) und dann auch einen Informationsgehalt dafür bestimmen. Aber das übliche Notensystem deckt das eben nicht alles ab, das meinte ich damit. Hab aber auch nur hobbymäßig mal etwas Klavier gespielt, falls hier ein Musiker ist darf man mich gerne weiter aufklären.

  20. #20 user unknown
    https://demystifikation.wordpress.com/2016/04/11/was-sie-schon-immer-ueber-satire-wissen-wollten/
    9. Oktober 2016

    Ein einfaches Beispiel, in folgendem Wort fehlt lediglich der letzte Buchstabe: “Wahrscheinlichkei_”.

    Das erinnert mich an einen Cartoon von F. K. Wächter. Ein Diogenesscher Typus lümmelt vor einer Hauswand, auf die er geschrieben hat “Es lebe die Freihei” Bild .

    Um die Sache für diese Diskussion zu versimplifizieren hätte er auch “Freiheid” schreiben können.

    Es ist also nicht immer so, dass man aus dem Wissen über die Sprache, den Zeitpunkt, an dem der Text entstand, der Länge des Wortes und einem Wörterbuch bestimmen kann, was als nächstes kommen müsste. Um die Wahrscheinlichkeit zu bestimmen müsste man auch ein unendliches Wissen über die Umwelt besitzen. In alten Texten findet man auch Freyheit u. dgl.

    Hättest Du nicht “Wahrscheinlichkei_”, sondern “Es lebe die Freihei_” als Beispiel gewählt, und die Möglichkeit “das Wort ist schon zuende” wäre durch die Fragestellung nicht ausgeschlossen gewesen, dann würden alle Freunde von F. K. Wächter diese Möglichkeit als gar nicht so gering eingestuft haben, während die, die die Zeichnung nicht kennen (war auch auf einem Buchcover), gar nicht ahnen würden, wie naheliegend diese Bedeutung ist.

    Natürlich kann ein Ende nach dem ei auch bedeuten, dass die Verbindung unterbrochen wurde, dass die Verbindung noch andauert und die Bandbreite gering ist, der Absender kann einen Fehler gemacht haben, und das alles könnten, je nach Kontext, wichtige Zusatzinformationen sein.

    Eine Checksumme könnte hier Klarheit schaffen, dass das Wort tatsächlich vollständig ist, und ohne t übertragen gehört, verlängert aber die Information wieder und ist also wieder redundant.

  21. #21 Tobias Wiegard
    9. Oktober 2016

    @user unknown
    Vorwissen halt. Wer die Zeichnung nicht kennt hat ein anderes Vorwissen als jemand der sie kennt. Macht man das Übertragungsende mit einem Terminatorsymbol kenntlich, dann hätte dessen Auftreten nach dem Wort “Freihei” für jemanden, der das Bild kennt einen niedrigeren Informationsgehalt als für jemanden, der es nicht kennt. Umgekehrt würde für den F. K. Wächter Freund der Informationsgehalt des “t” steigen, wenn es denn auftritt. Da eine Möglichkeit wahrscheinlicher geworden ist, müssen andere unwahrscheinlicher geworden sein. Da über andere Zeichen als “t” und das Terminatorsymbol keine Aussage gemacht wurde, werden sich deren Wahrscheinlichkeiten eher nicht ändern.

  22. #22 rolak
    9. Oktober 2016

    Ihr Gedanke , dass ein n häufiger ist als ein o

    Wie kommst Du darauf, daß das ein Gedanke von mir war, Robert? Das ist ausgewertet und kann nachgeschlagen werden.

    Passwort lieber .. mit .. o .. beginnen

    Das ist völlig irrelevant, Passwörter bzw -phrasen haben (neben den Vorgaben der einlesenden Software) nur vier Eigenschaften zu erfüllen:
    – sie müssen für Anwender* leicht merkbar sein, sonst kommt er/sie nicht mehr rein
    – sie dürfen nicht auf einer der 08/15-Paßwortlisten der brute-force-Knacker stehen, sonst kommen selbst leet-wannabe-hax0rs rein
    – sie dürfen nicht korreliert mit den Lebens/Arbeits-umständen der Anwender* sein, sonst sind sie leicht zu erraten
    – sie sollten möglichst verrenkungs- bis handbewegungsfrei eingebbar sein, sonst sind sie leicht mitzuschreiben.

  23. #23 Till
    9. Oktober 2016

    @rolak

    nur vier Eigenschaften zu erfüllen:
    – sie müssen für Anwender* leicht merkbar sein, sonst kommt er/sie nicht mehr rein
    – sie dürfen nicht auf einer der 08/15-Paßwortlisten der brute-force-Knacker stehen, sonst kommen selbst leet-wannabe-hax0rs rein
    – sie dürfen nicht korreliert mit den Lebens/Arbeits-umständen der Anwender* sein, sonst sind sie leicht zu erraten
    – sie sollten möglichst verrenkungs- bis handbewegungsfrei eingebbar sein, sonst sind sie leicht mitzuschreiben.

    Da wäre ich sehr vorsichtig. Passwortknacker bedienen sich inzwischen Datenbanken, die die Wahrscheinlichkeiten von Zeichenkombinationen in Passwörtern enthalten. Diese Tools berücksichtigen einerseits sogenannte passphrasen (also aus Sätzen generierte Passwörter) und andererseits häufig verwendete Zeichenkombinationen.

    Deshalb sind leicht merkbare und ohne Verrenkung eingebbare Passwörter inzwischen auch leichter zu knacken als echt zufällige Passwörter. Leider hilft es eben doch nur längere und möglichst zufällige Passwörter oder besser gleich zwei-Faktor Authentifizierung zu verwenden. Dieser (kostenpflichtige) c’t Artikel gibt gute Tipps, wie man zu halbwegs sicheren Passwörtern kommt (er ist allerdings von 2013 also sollte man vorsichtshalber noch ein-zwei Zeichen mehr verwenden als damals empfohlen).

    Das bedeutet, dass man heutzutage mit Deinen Tipps leider nicht einmal mehr 1337-wannabe-hax0rs abschreckt.

  24. #24 Robert
    9. Oktober 2016

    rolac,
    welche Mindestlänge bei Passwörtern empfiehlst du?

  25. #25 tomtoo
    9. Oktober 2016

    @robert
    Pauschal und wenn es das System erlaubt: Lang und gut zu merken
    xz#25u ist nicht sicherer als 3kuese4julia!

  26. #26 Yarramalong
    Berlin
    9. Oktober 2016

    Hoffmann hat recht, es gibt zwei Bedeutungen des Wortes Information. Es wird zum einen allgemein für Inhalte jedweder Art benutzt. Das gilt leider auch für die sog. Informationstheorie, die nichts anderes berechnet als die Datenübertragung zwischen zwei (dummen) Objekten (Sender und Empfänger). “Information” in diesem Sinne ist Daten. Die andere Bedeutung lautet: Information ist die Bedeutung, die ein Mensch Daten zuordnet. (Bitte nach ISO-Definition suchen). In diesem Blog wurden die beiden Bedeutungen vermischt. Daher der Spruch “Der Informationsgehalt ist vom Wissen des Empfängers abhängig. ”

    Als Datum ist 1 km eine feste Länge. Sie bedeutet aber für einen Autobahnbauer etwas anderes als für einen Porschefahrer. Und für einen mit Druck auf der Blase ist die unendlich lang.

  27. #27 rolak
    9. Oktober 2016

    Mindestlänge?

    So lang, wie es der erste Punkt der Viererliste zuläßt, Robert. Wenn Du die nicht hinter einer paywall verborgenen Texte hinter Tills links durchliest, wird Dir auch klar, warum der dritte Punkt seinen Einwand irrelevant macht: Die vorgestellten Methoden funktionieren nur zu einer bekannten, recht endlichen Textbasis, mit Hardware-Zugang oder social hacks.

    Der SuperLuxus bei ‘aecht zufälligen Passwörtern’™ von vertrauenswürdigen Generatoren: Keine. Für die gelten nämlich dieselben Beschränkungen – denn von außen und ohne Vorwissen sind Zufall und Design äußerst schwierig zu unterscheiden. Analog zu dem Buchstabenhäufigkeits-Problem weiter oben.

  28. #28 rolak
    9. Oktober 2016

    wenn man sagt “Der Informationsgehalt dieses 8 Bit Zeichens ist 3 Bit” dann ist das .. verwirrend

    Nicht doch, Tobias, das ist schlicht falsch, genauso falsch wie ‘Die Entfernung von Düsseldorf ist 11’ oder ‘Die Anzahl der Äpfel ist 3 Kilogramm’.

    in 10 Versuchen

    Irrelevant, Du hast eine generelle Aussage gemacht, ein Gegenbeispiel reicht.

    Verschlüsselte Containerdateien

    a) Was bitte ist der Grund, warum unbedingt “Container” auftauchen muß?
    b) Das ist schon wieder eine unhaltbare, generelle Aussage: Sie gilt ausschließlich für output-gleichverteilende Verschlüsselungen. Als Gegenbeispiel verschlüssele ich jetzt unverschämterweise mit einem einfachen Caesar und rumms, stimmts nicht mehr.

    maximal 1 Bit Information

    Das war doch Deine höchstpersönliche Vorgabe: binäre Nullen und Einsen einhacken. Selbst in Deinem Zitat steht doch noch das ‘äquivalent’ – die 1000 ascii-[01] sind äquivalent zu 1000Bit.

    wenn du ein Linux (..) zur Verfügung hast

    Kleiner Scherzkeks, woll? Es mag ja durchaus ExotenDistros geben, die mangels Bedarf und Interesse nicht wenigstens als VM hier herumliegen, aber…

  29. #29 Tobias Wiegard
    9. Oktober 2016

    @rolak

    das ist schlicht falsch, genauso falsch wie ‘Die Entfernung von Düsseldorf ist 11’ oder ‘Die Anzahl der Äpfel ist 3 Kilogramm’.

    Gut, der Satz wäre vielleicht besser “Der Informationsgehalt dieses 8 Bit Zeichens entspricht 3 Bit” gwesen, aber ich denke nicht, dass das ohne weitere Erklärung weniger verwirrend wird. Ein bit ist halt keine physikalische Einheit, wird aber trotzdem meist wie eine verwendet. Wenn es dir lieber ist, kannst du auch das Shannon für die Information verwenden.

    Irrelevant, Du hast eine generelle Aussage gemacht, ein Gegenbeispiel reicht.

    Auf die Idee, bereits komprimierte Daten zu verwenden war ich nicht gekommen, aber ich denke, dass Zufallsdaten auch anschaulicher sind. Dass komprimierte Daten nicht weiter komprimierbar sind erscheint schon durch Logik plausibel, denn dann hätte der Kompressor das doch direkt machen können. Zufallszahlen sind aber noch nicht komprimiert und trotzdem in den allermeisten Fällen (so wie makroskopische Gegenstände üblicherweise nicht durch den Boden tunneln) nicht komprimierbar.

    Was bitte ist der Grund, warum unbedingt “Container” auftauchen muß?

    Weil das das Erste war was mir einfiel. Bei einem verschlüsselten Laufwerk beispielsweise wird man vermutlich eher selten versuchen, es außerhalb der Verschlüsselung zu komprimieren.

    Das ist schon wieder eine unhaltbare, generelle Aussage: Sie gilt ausschließlich für output-gleichverteilende Verschlüsselungen. Als Gegenbeispiel verschlüssele ich jetzt unverschämterweise mit einem einfachen Caesar und rumms, stimmts nicht mehr.

    Seit wann ist die Caesarchiffre wieder eine ernsthafte Verschlüsselung? Ich dachte es wäre schon klar gewesen, dass robuste Verschlüsselungen gemeint sind.

    Das war doch Deine höchstpersönliche Vorgabe: binäre Nullen und Einsen einhacken.

    Die Idee funktioniert ja auch. Aber die Anschaulichkeit leidet denke ich doch, wenn man ASCII [01] verwendet, weil sich das eben doch komprimieren lässt. Eine Datei zu erstellen, die sich einfach nicht mehr komprimieren lässt, dürfte deutlicher machen was gemeint ist und das funktioniert eben mit einem gewöhnlichen Texteditor nicht.

    Kleiner Scherzkeks, woll?

    Da leider meine hellseherischen Fähigkeiten immer noch unterentwickelt sind bin ich nicht automatisch davon ausgegangen, dass du Linux hast. Bin halt noch nicht lange hier, also kenne ich noch nicht jeden.

  30. #30 Michael Beer
    Scheyern
    9. Oktober 2016

    @hoffmann:

    ” In der deutschen Sprache ist “ein” definitiv häufiger als “ter”, aber a priori ist jede Buchstabenkombination mit drei Zeichen aus einem zuvor definierten Zeichenvorrat gleich wahrscheinlich, wenn man sie ausschließlich aus der Perspektive der Informationstheorie betrachtet. ”

    “Aus der Perspektive der Informationstheorie” musst du zu jeder Informationsquelle eine Wahrscheinlichkeitsverteilung für die erzeugten Symbole definieren, bevor du sie analysieren und du dich evtl. um ihre Kompression kümmern kannst.
    Du gehst anscheinend davon aus, dass die Wahrscheinlichkeitsfunktion mit der ein Auftreten eines Zeichens ermittelt wird nur vom Zeichen abhängt, also letztlich (falls man nur zwei Zeichen “A” und “B” kennt) in etwa so aussehen sollte:

    p(A) = 0,7
    p(B) = 0,3

    Es hindert dich aber niemand daran andere Abhängigkeiten zu berücksichtigen, z.B. die Funktion davon abhängig zu machen, welches das Zeichen vor dem zu kodierenden Zeichen gewesen ist, also etwas in der Richtung:

    P(A,A) = 0,1
    P(A,B) = 0,3
    p(B, A) = 0,4
    p(B, B) = 0,2

    Man beachte, dass man dann für den Informationsgehalt des Beispielwortes im Text natürlich eine anderen Informationsgehalt erhielte.

    Moderne Kompressionsverfahren gehen diesen Weg auch, sie ersetzen in einem Text nicht Zeichen für Zeichen wie z.B. der Morsecode, sondern suchen nach auftretenden Wortwiederholungen und ersetzen diese komplett.

    Niemand hindert dich daran, in dein Wahrscheinlichkeitsmodell beliebige Eigenschaften z.B. einer Sprache zu packen und – etwas weniger theoretisch gesprochen – so einen z.B. auf Deutsch optimierte Codierung zu erhalten.

    Und das – die Wahrscheinlichkeitsfunktion nicht statisch als “Auftrittswahrscheinlichkeit eines einzelnen Zeichens unabhängig vom Kontext” – ist nicht nur ein praktischer “Hack”, sondern grundlegend in der Informationstheorie verankert.

    Mit anderen Worten haben beliebige Zeichenkombinationen wie “ein” und “ter” überhaupt keine Auftrittswahrscheinlichkeiten und keinen definierten Informationsgehalt. Erst durch die Wahl einer Wahrscheinlichkeitsfunktion wird diesen ein Informationsgehalt zugewießen. Und aus Sicht der Informationstheorie darf diese Funktion aussehen, wie sie will, solange es eine Wahrscheinlichkeitsverteilung ist – man könnte sie auch vom Wetter abhängig machen, das bei der Kodierung herrschte (was natürlich etwas unhandlich wäre da der Empfänger in der Regel die Wetterlage vor Ort des Senders nicht kennt 😉

    Schon in dem Paper “A mathematical theory of communication” mit dem Shannon die moderne Informationstheorie begründete bringt er natürliche Sprache als Beispiel um zu erklären dass nicht nur von einen vorher definierten Zeichenvorrat auszugehen ist.

    Wer ein mathematisch affines Studium hinter sich hat dem empfehle ich tatsächlich Shannons Paper, es ist erstaunlich verständlich und behandelt u.A. auch die hier im Forum augeworfene Frage was geschieht wenn eine Quelle eine überabzählbare Zahl an Symbolen nutzt, ein analoges Signal erzeugt.

  31. #31 rolak
    10. Oktober 2016

    Ich dachte

    Sorry, Tobias, aber das wage ich nach den bisherigen Ausflüchten langsam zu bezweifeln, zumindest in der Bedeutung ‘ich dachte gründlich über das zu Schreibende nach’.

    auch das Shannon

    Das ingroup gerne flapsig mit allem Möglichen umgegangen wird, ist durchaus zutreffend beobachtet – und eine entsprechend ungenaue Wiedergabe kann für Außenstehende durchaus verwirrend sein, was aber nur daran liegt, daß sie, wie schon erwähnt, schlicht falsch ist. ‘Shannon’ ist zB die Einheit des Informationsgehaltes einer Nachricht, während der von Dir oben angeführte Informationsgehalt eines Zeichens einheitenlos ist. Es sollte klar sein, daß die beiden bewerteten Entitäten in den allermeisten Fällen nicht äquivalent sind.

    Dass komprimierte Daten nicht weiter komprimierbar sind erscheint schon durch Logik plausibel

    Ist aber als generelle Aussage falsch, wie Dir sicherlich bei Deinen umfangreichen Tests zur Recherche des oben stehenden Artikel aufgefallen ist.

    dann hätte der Kompressor das doch direkt machen können

    Oh, doch keine Hintergrundrecherche. Ist Dir nicht klar, daß typische moderne Kompressoren einen ganzen Set von KompressionsAlgorithmen in petto haben und den ihrer Meinung nach geeigneten (teils sogar blockweise) anhand einer Stichprobenanalyse des zu Komprimierenden auswählen? Daß die Stichprobe(n) eines Komprimats besser passend sein kann/können und somit noch ein paar Gramm abgespeckt werden können? Noch nie mehrfach komprimiert?

    das Erste .. was mir einfiel

    Generell ein schlechter Ansatz, führte hier zum Einarbeiten einer völlig überflüssigen Spezialisierung.

    robuste Verschlüsselungen gemeint

    Darüber hinaus scheint Dir nicht klar zu sein, daß von den Lesern hier Texte betrachtet und ggfs auch bewertet werden. Jedoch nicht die eigene Phantasie über mögliche Intentionen des Autors des Textes. Wenn Du eine Meinung zum Ausdruck bringen willst, formuliere sie.

    meine hellseherischen Fähigkeiten immer noch unterentwickelt

    Dafür hast Du aber ziemlich großes Vertrauen in sie gesetzt, als Du die prospektiv unterstellende Formulierung “wenn du ein Linux (..) zur Verfügung hast…” wähltest statt eines neutralen “unter Linux…”. Mal ganz abgesehen davon, daß es immer ziemlich suspekt ist, wenn jemand nach einem allgemeinen (und auch völlig ausreichenden) Vorschlag (→random·org) urplötzlich mit einem doch sehr speziellen anrückt.

  32. #32 Alderamin
    10. Oktober 2016

    @Tobias

    Schöner Artikel zu einem recht komplexen Fach (war eines der 4 Fächer meiner Pro‌motionsprü‌fung), gut und nachvollziehbar erklärt.

    Nur als Namen des Artikels hätte ich einen anderen gewählt, denn die Informationstheorie ist insgesamt ein wenig umfangreicher als der hier thematisierte Informationsgehalt einer Kodierung mit Zeichen.

  33. #33 Tobias Wiegard
    10. Oktober 2016

    rolak, ich glaube wir reden hier aneinander vorbei. Ich habe lediglich versucht, die Gründe für meine Ungenauigkeiten darzulegen und dabei teilweise versucht, die Perspektive eines möglicherweise unerfahrenen Lesers einzunehmen. Wenn du jedes Wort meiner Kommentare auf die Goldwaage legst wirst du immer Fehler finden. Selbstverständlich ist auch der Artikel nicht perfekt. Ich weiß außerdem wirklich nicht, welche Unterstellung du in der Formulierung “Wenn du ein Linux zur Verfügung hast…” findest. Gemeint war es als ganz neutrales “Wenn Linux vorhanden, dann probier doch einfach mal das hier aus (wenn du möchtest)”. Tut mir leid, falls das bei dir irgendwie anders angekommen ist, so war es jedenfalls nicht gemeint.

    @Alderamin
    Da hast du recht. Der Titel war mir am Anfang eingefallen und am Schluss habe ich nicht mehr darüber nachgedacht. Auch die am Anfang des Artikels erwähnte Entropie kommt ja gar nicht mehr vor, was mir erst nach der Abgabe aufgefallen ist. Hinterher ist man eben immer schlauer.

  34. #34 Robert
    11. Oktober 2016

    Noch mal zur Passwortlänge,

    ich meine jetzt nicht, dass ein computer nach Versuch und Irrtum alle Kombinationsmöglichkeiten durchspielt. dann sind alle Zeichen gleichberechtigt.
    Wenn aber ein Mensch einen versuch wagt, und ein Datum hinter dem Passwort vermutet, dann wird er bei einem sechstelligen Passwort nur Zahlen wählen, die ein Datum repräsentieren können. Für die erste Zahl also nur 1, 2, oder 3.
    Diese Art von Wahrscheinlichkeiten meine ich.

  35. #35 Tobias Wiegard
    11. Oktober 2016

    Falls ein Passwort für einen Mensch einfach erratbar ist (Name des Haustiers, Geburtsdatum, etc.) dann ist das Passwort extrem schlecht. Abgesehen von solchen Fällen braucht man sich nur Sorgen über Computer zu machen, die das knacken könnten. Dagen hilft: Möglichst zufällig und möglichst lang. Sind Muster im Passwort vorhanden (z.B. Wörter) muss das Passwort entsprechend länger sein um das auszugleichen. Im Endeffekt sollte der Informationsgehalt des Passworts möglichst hoch sein.

  36. #36 Robert
    12. Oktober 2016

    Tobias,
    ich nehme außergewöhnliche Wörter aber mit Rechtschreibfehlern, die kann man sich auch gut merken.