1902 erschien im Evening Standard eine längere verschlüsselte Zeitungsanzeige. Es ist völlig unklar, wer mit diesem kodierten Text wem etwas mitteilen wollte.

Auf die Gefahr hin, dass ich mich wiederhole: Das Buch The Agony Column Codes & Ciphers von Tony Gaffney (alias Jean Palmer) ist eine wahre Fundgrube. Über 1.000 verschlüsselte Zeitungsanzeigen aus dem viktorianischen England sind darin aufgelistet. Viele davon hat Gaffney, ein wahrer Meister des Codeknackens, bereits dechiffriert. Dennoch bleiben mehr als genug Kryptogramme aus diesem Buch übrig, die noch auf ihre Lösung warten.

Auf eine besonders spannende verschlüsselte Zeitungsanzeige hat mich Tony Gaffney selbst vor ein paar Tagen hingewiesen. Sie ist am 14. Juli 1902 im Evening Standard erschienen und beginnt mit den Großbuchstaben ISTW, die vermutlich als Erkennungszeichen dienten. Im Gegensatz zu vielen anderen Anzeigen aus dem Buch enthält sie keinerlei Klartext. Tony Gaffney hat es nicht geschafft, den Code zu knacken. Hier ist das Kryptogramm:

ISTW ugfu wata fnsb tirq aqdf euom usar aipt eedq qmtn
yqyu xstu rruy oias daxo fixx znqd vthm edry zrtr oida
cnde yrno iawm eonu pvet iueo rdhm zpns trmr cnxd cmdk
dxor atec rhds qiua foui trol zure dxma qusq viww yxue
wwdf nedh xdhm kyxx vmxc znqf ndyz fzif unom rqou
utro idau xdrm wedk vdsv usoq vmut snid yptr rknu nsmr
ncns snia nueo ikwm neyv trwt fidu pdxx pvqh dnom yfue
mmhm sasg movm svxu iewm cuck vmrg dahd nlda paqq
viwp nevu ywmr dbuy rodr dqba riwv znhd nudy svns
mxmw rear wqua uwye zeud exiv dekd sqid yeto nzup
ynrm ensi anmt rasn iptr rapz iaad encn nemm qyeg idka
neas zmoi qpaq rmmn senc mnad ryxn rpmd hgsu hmgg
encn ntoo surr ptqx nued oqya pngy remw rugo ywur gyqu
wzdn oyeu nusd sorq vmrc sdvn moqu vdon.

Mit fast 600 Buchstaben bietet das Kryptogramm vergleichsweise viel Analysematerial. Das “n” ist mit über 8 Prozent der häufigste Buchstabe, das “j” mit unter 1 Prozent der seltenste. Für eine einfache Buchstabenersetzung erscheint die Häufigkeitsverteilung zu flach.

Die ungewöhnliche Notation in Vierergruppen würde zu einer paarweisen Ersetzung passen. Mein erster Gedanke war eine Playfair-Verschlüsselung, die um 1902 in Großbritannien bereits bekannt war (über eine Playfair-Verschlüsselung, die 46 Jahre später angewendet wurde, habe ich in Klausis Krypto Kolumne bereits berichtet). Allerdings kommen bei Playfair nur 25 Buchstaben zum Einsatz (meist wird I=J gesetzt), und es gibt keine gleichlautenden Buchstabenpaare. Um eine unveränderte Playfair-Verschlüsselung kann es sich also nicht handeln.

Hat jemand eine bessere Idee? Kann jemand das Rätsel lösen?

Zum Weiterlesen: Die verschlüsselten Nachrichten eines Polarforschers

Kommentare (18)

  1. #1 joe
    Berlin
    29. November 2014

    Keine Lösung aber ein Hinweis es handelt sich um 4er Gruppen.

    • #2 Klaus Schmeh
      29. November 2014

      Stimmt, ich finde das eher ungewöhnlich. Fünfergruppen sind normal, Vierergruppen nicht.

  2. #3 Alex
    29. November 2014

    Sollte es sich trotz allem um eine Buchstabenersetzung handeln, passen zumindest die aufeinanderfolgenden Doppelbuchstaben ganz gut. Wenn ich nichts übersehen habe gibt es im Englischen (natürlich wissen wir nicht sicher, ob es sich um einen Text in dieser Sprache handelt) 15 mögliche Doppelbuchstaben: bb, cc, dd, ee, ff, gg, ll, mm, nn, oo, pp, rr, ss, tt und zz, wobei das seltenste Paar das Doppel-Z bildet.

    Im Text kommen neun verschiedene vor: aa, gg, mm (3x), oo, qq, rr (2x),uu, ww (2x) und xx (3x), was bei der Länge des Textes etwa passen würde, da einige Doppelbuchstaben erwartungsgemäß nicht auftauchen würden.

    Der häufigste Einzelbuchstabe, das “n”, erscheint gar nicht in doppelter Form, wie es auch zu erwarten wäre, wenn es sich dabei um ein Leer- oder Satzzeichen handeln würde (was natürlich Zufall sein kann).

    Wo ist eigentlich Data, wenn man ihn mal braucht? 🙂

    • #4 Klaus Schmeh
      29. November 2014

      Wer ist Data?

  3. #5 Joe
    Berlin
    29. November 2014

    Viergruppen sind genauso weit verbreitet wie Fünfergruppen, nur wurden die Fünfergruppen gerne verwendet da dies der Durchschnitt der Läne der Worte im Englischen.
    Und nein Viergruppen sind auch bis in die 70er verwendet worden.

    WTFID.

    Jörg

    • #6 Klaus Schmeh
      29. November 2014

      >Viergruppen sind genauso weit verbreitet wie Fünfergruppen
      Wusste ich nicht, mir sind bisher fast nur Fünfergruppen begegnet.

  4. #7 SB
    29. November 2014

    Lieutenant Commander Data aus Star Trek?

    • #8 Klaus Schmeh
      29. November 2014

      Danke, da hatte ich eine Bildungslücke.

  5. #9 Lercherl
    30. November 2014

    In der Transkription oben kommt j nicht vor, nicht unter 1%, sondern gar nicht, das spricht für etwas Playfair-Ähnliches. Dagegen spricht natürlich das Vorkommen von Doppelbuchstaben. Simples Weglassen der Doppelbuchstaben führt zu keiner Playfair-Lösung mit Quadgramm-Statistiken und Simulated Annealing.

    • #10 Klaus Schmeh
      30. November 2014

      >In der Transkription oben kommt j nicht vor, nicht unter 1%, sondern gar nicht
      Das habe ich übersehen. Das ist sicherlich ein starkes Argument für eine Playfair-Variante.

  6. #11 Max Baertl
    7. Juni 2015

    Vielleicht handelt es sich um Two-square, eine playfair Variante mit 2 5×5 Quadraten wodurch doppelbuchstaben als Verschlüsselungsergebnis möglich sind. Two-square war schon zu Beginn des 20 Jahrhunderts bekannt.

  7. #12 Max Baertl
    8. Juni 2015

    Die häufigsten Bigramme sind:
    nu 6x ; tr 6x ; hm 5x ; ne 5x ; vm 5x ; cn 4x ; da 4x ; id 4x ; ns 4x

    Alle Restlichen Bigramme sind etwa gleich häufig

  8. #13 Max Baertl
    8. Juni 2015

    Möglich wäre auch eine Bifid verschlüsselung, bei Bifid gibt es ebenfalls kein J

    • #14 Klaus Schmeh
      8. Juni 2015

      Wäre auch eine Möglichkeit. Es könnte aber auch eine Codebuch-Verschlüsselung sein, die zusätzlich noch mit einer Ersetzung verschlüsselt wurde. Das war damals sehr populär.

  9. #15 Norbert
    30. Januar 2016

    Die Einteilung in Vierergruppen hat tatsächlich mit der Verschlüsselung zu tun und ist nicht nur “Fassade”. Wenn man nämlich den Text in Zeilen à acht Zeichen schreibt (also jeweils zwei Vierergruppen nebeneinander),

      istw ugfu
      wata fnsb
      tirq aqdf
      ...  ...
      moqu vdon

    dann hat die linke Hälfte (der “istw-Block”) eine hochsignifikant andere Buchstabenverteilung als die rechte (der “ugfu-Block”). Zum Beispiel findet man im istw-Block 39-mal m und 22-mal t, während diese beiden Buchstaben im ugfu-Block nicht ein einziges Mal auftauchen! Meiner Meinung nach kann man daraus schließen, dass mindestens ein Polybiosquadrat (oder -rechteck) im Spiel ist sowie eine Periodizität von 4 oder 8 – je nachdem, wie das im jeweiligen System definiert wird. Die Unterschiede der Buchstabenverteilung beruhen darauf, dass es im einen Block eine Rolle spielt, in welcher Reihe des Polybiosquadrats sich ein Klartextbuchstabe befindet, im anderen dagegen, in welcher Spalte. Die pro Reihe aufsummierten Buchstabenhäufigkeiten verteilen sich anders als diejenigen pro Spalte, so kommt der beobachtete Effekt zustande (und bleibt ähnlich bzw. verstärkt sich sogar, wenn mehrere Polybiosquadrate beteiligt sind).

    Infrage kämen auf Grundlage dieser Annahme Bifid (auch CM Bifid) mit einer Periode von 8, aber ebensogut seriated Playfair mit einer Periode von 4 oder dazu analoge Varianten à la “seriated Two-Square” oder “seriated Four-Square”. Letztere zwei Möglichkeiten kommen historisch gesehen durchaus in Betracht, denn im Buch “Traité élémentaire de cryptographie” (Paris 1902) von F. Delastelle werden sehr ähnliche Verfahren beispielhaft beschrieben (das Buch erschien laut der englischsprachigen Wikipedia im Juli 1902, die Annonce ist vom 14. Juli – knapp, aber nicht ausgeschlossen).

    Leider ist die Sachlage noch etwas komplizierter … Die beschriebene statistische Beobachtung verdanke ich einem “Chi-Quadrat-Test”, wie er in “Classical Cryptography Course By Lanaki” vorgeschlagen wird, um die Periode bei Bifid zu bestimmen. Hier das vielversprechende Ergebnis:

    period  chi-square
       5     24.444
       6     22.447
       7     26.414
       8    123.250
       9     19.573
      10     27.136

    Wendet man aber alternativ die Bigramm-Varianz-Methode zur Bifid-Periodenbestimmung an, wie sie bei practicalcryptography.com beschrieben wird, sieht das Ergebnis mau aus (für Periode 8 müsste bei step = 4 ein deutlicher Peak von m.E. circa 2.4 auftauchen):

    step bigram variance
     1   1.635
     2   1.380
     3   1.313
     4   1.278
     5   1.126
     6   1.157
     7   1.849
     8   1.341

    Zur Klarstellung: Diese Tests beweisen bei positivem Ergebnis für eine bestimmte Periode noch lange nicht, dass die Verschlüsselung wirklich Bifid ist. Aber wenn es Bifid ist, dann sind bei so langen Texten wie hier beide sehr zuverlässig. Reines Bifid dürfte also wohl ausscheiden.

    Für die beschriebenen anderen Verfahren (seriated Playfair/Twosquare/Foursquare) bin ich allerdings mit Simulated-Annealing-Algorithmen bislang noch nicht fündig geworden. Vielleicht hat ja jemand eine gute Idee, wie man an diesem Punkt weiterkommt …

  10. #16 Abo
    13. Juli 2016

    :]

  11. #17 Thomas Ernst
    Latrobe
    23. Juli 2016

    Betreffs “m” und “t”:

    Die Buchstabenmengen in Gruppe α (ISTW) und Gruppe β (ugfu) sind (Verzähler sind nicht ausgeschlossen; außerdem sind meine “α” und “β” vielleicht verkehrt herum, wenn nämlich großgedrucktes ISTW gar nicht zum Chiffretext gehört):

    α) a (18), b (-), c (5), d (23), e (10), f (2), g (3), h (5), i (17), k (4), l (2), m (38), n (18), o (14), p (8), q (7), r (24), s (7), t (22), u (12), v (12), w (18), x (11), y (8), z (5).

    β) a (14), b (3), c (7), d (23), e (24), f (9), g (7), h (6), i (10), k (4), l (-), m (-), n (32), o (15), p (8), q (19), r (19), s (22), t (-), u (30), v (8), w (2), x (9), y (16), z (8).

    Die acht größten quantitativen Abweichungen zwischen α und β – ich habe sie in Fettdruck, aber sie werden wohl nicht so wiedergegeben werden – erscheinen bei den acht Buchstaben E, M, N, Q, S, T, U, W. Mit “F” und “I” käme man auf zehn. Da Vierer hier eine Rolle zu spielen scheinen, bleibe ich bei acht. Zusammengerechnet erscheinen alle acht Buchstaben in α 132 mal, in β 129 mal – also nahestehende Gesamtmengen. Die geringste Abweichung ist 12 bei “Q”, die größte 38 bei “M”. Wenn man Abweichung 12 bei “Q” textbedingt interpretiert und durch Abweichung 7 bei “I” ersetzt, erhielte man E, I, M, N, S, T, U, W, und dann in α 124, in β 120 dieser Buchstaben. Kurz: zwischen zwei Substitutionsalphabeten wären acht Buchstaben Wechselbälge, siebzehn blieben mengenweise ungefähr gleich (gut, da ist noch das “f”), und deswegen vielleicht identisch in ihrer Bedeutung.
    Die Frage, warum “m”und t” in β nicht auftreten, der Fehlquotient jedoch trotzdem 8 gegen 8 ausgeglichen werden kann, läßt sich semantisch per Polybios, Playfair oder Bifid-Variationen nicht lösen. Die einfache Antwort scheint mir, daß die 50x “m” und “t” Phantombuchstaben bzw. Homophone sind für Gruppe β zugehörige Chiffrebuchstaben, vielleicht e, n, q, s, u – oder auch andere. Wegen der möglichen Varianten können wir nicht einfach “hm” oder “vm” herausgreifen und das “m” aus β zu ersetzen. Ohne “j”, “m”, “t” ist das englische Klartextalphabet auf 23 reduziert. Und warum sollte ein Text dieser Länge nicht ohne die alphabetischen Trittbrettfahrer “k”, “q”, “x” oder “z” auskommen? Zumindest auf 1:1-Basis. Dann hätten wir zwei Substitutionsalphabete mit Chiffrebuchstaben a, b, c, d, e, f, g, h, i, k, l, n, o, p, q, r, s, u, v, w, x, y, z, wobei (anscheinend) mindestens zwei dieser Chiffrewerte (vielleicht auch nur einer) nur in Gruppe α durch Homophone ausgedrückt werden (Abweichungen”b” und “l” halte ich für zufällig). Wir hätten so die Kombination einer nicht homophonen Substitution mit einer teilweise homophonen Substitution. Da in β zwei Buchstaben wegfallen, könnte man obige Rechnung auch 6:8 oder 7:8 nachvollziehen, nur scheint mir das wegen des Gefälles unwahrscheinlich. Jedenfalls muß eine ungefähr naheliegende Summe herauskommen. Man müßte zuerst an Gruppe β ran – mit der unglücklichen Ausgangsbedingung, daß man einen Text mit zwei oder vier Buchstabenlücken entziffern muß.

  12. #18 Thomas Ernst
    Pittsburgh
    23. Juli 2016

    Für Liebhaber von Statistiken: bei vier aufeinanderfolgenden Vierern aus der β-Gruppe ergibt sich ein durchschnittlicher Gebrauch von 10 verschiedenen Buchstaben. Andererseits könnte man von häufigen Wiederholungen dreier Buchstaben sprechen, auffällig z. B. des seltenen “f” in Gruppe 1. Was es zu bedeuten hat, weiß ich nicht:

    ugfu [….] fnsb [….] aqdf [….] usar (a, b, d, f, g, n, q, r, s, u) = 10
    eedq [….] yqyu [….] rruy [….] daxo (a, d, e, o, q, r, u, x, y) = 9
    znqd [….] edry [….] oida [….] yrno (a, d, e, i, n, o, q, r, y, z) = 10
    eonu [….] iueo [….] zpns [….] cnxd (c, d, e, i, n, o, p, u, x, z) = 10
    dxor [….] rhds [….] foui [….] zure (d, f, h, i, o, r, s, u, x, z) = 10
    qusq [….] yxue [….] nedh [….] kyxx (d, e, h, k, n, q, s, u, x, y) = 10
    znqf [….] fzif [….] rqou [….] idau (a, d, f, i, n, o, q, r, u, z) = 10
    wedk [….] usoq [….] snid [….] rknu (d, e, i, k, n, o, q, r, s, w) = 10
    ncns [….] nueo [….] neyv [….] fidu (c, d, e, f, i, n, o, u, v, y) = 10
    cuck [….] dahd [….] paqq [….] nevu (a, c, d, e, h, k, n, p, q, u, v) = 11
    dbuy [….] dqba [….] znhd [….] svns (a, b, d, h, n, q, s, u, y, z) = 10
    rear [….] uwye [….] exiv [….] sqid (a, d, e, i, q, r, s, u, v, w, x, y) = 12
    nzup [….] ensi [….] rasn [….] rapz (a, e, i, n, p, r, s, u, z) = 9
    encn [….] qyeg [….] neas [….] qpaq (a, c, e, g, n, p, q, s, y) = 9
    senc [….] ryxn [….] hgsu [….] encn (c, e, g, h, n, r, s, u, x, y) = 10
    surr [….] nued [….] pngy [….] rugo (d, e, g, n, o, p, r, s, u, y) = 10
    gyqu [….] oyeu [….] sorq [….] sdvn (e, g, n, o, q, r, s, u, v, y) = 10
    vdon.