Der folgende Artikel ist ein Gastbeitrag von Prof. Jochem Berlemann und Prof. Marietta Ehret (Lemgo). Beide sind Autoren des Blogs mathezartbitter, den ich hiermit ausdrücklich empfehlen möchte. Die Bilder lassen sich durch Anklicken vergrößern. TK
Löcher in Daten II
Bilder geben uns immer wieder Rätsel auf. Insbesondere Fotos bilden die Wirklichkeit ab, enthalten Informationen und haben eine Ästhetik. Ist es möglich, die Informationen eines Bildes algorithmisch auszuwerten und neben der Information jedes einzelnen Pixels und den Metadaten weitere Merkmale zu entdecken, möglicherweise eine Landschaft zu klassifizieren oder zu bestimmen?
Im Beitrag Löcher in Daten hat Thilo Kuessner auf einen Artikel von Gunnar Carlsson et al. hingewiesen. Diese Mathematiker haben digitale monochrome Landschaftsfotos („Kodakbilder“ aus der von Hateren/von Schaaf-Datenbank) ausgewertet. Aus lokalen Eigenschaften (3 x 3 px-Ausschnitte) der Bilder haben sie ein Modell eines Vektorraumes erzeugt, indem die 3 x 3 px-Ausschnitte eine 2D-Untermannigfaltigkeit mit der Struktur der Kleinschen Flasche bilden. Wir möchten in diesem Beitrag diesen faszinierenden Artikel unter vorwiegend fotografischen Aspekten untersuchen.
1. Offene Fragen
So haben wir uns gefragt, ob diese Kleinsche Flasche alle Informationen der Bilder der o.g. Datenbank holländischer Landschaften enthält. Wir sind der Meinung, dass in solchen Untersuchungen eher die verwendete Aufnahmetechnik – wie Pixelgröße, Objektiv, Dynamikbereich des Sensors – sowie die Lichtsituation die Ergebnisse wesentlich prägen.
2. Die Vorgehensweise
Um das zu illustrieren – und um reproduzierbare Ergebnisse zu bekommen – haben wir computergenerierte Bilder erzeugt. Aus denen werden 3 x 3 px-Ausschnitte an ganz spezifischen Stellen gewählt. Das sind gerade solche Stellen, die einen starken Kontrastverlauf zeigen und in denen eine lokal variable und auswertbare Information enthalten ist.
3. Referenzbilder
Die von Hateren-Kamera ist eine Kodak 240, siehe Kodak 400 und van-hateren-dataset. Diese wurde von uns mit einem 9,2 x 13,8 mm-Sensor mit einem 30 mm-Objektiv imitiert. Die Motive der Bilder aus der Datenbank entsprechen eher biologischen als technischen oder mathematischen Aspekten. Abb. 1 zeigt das Bild einer Baumgruppe, das mit den technischen Daten der Kodak 240 gerendert wurde.
Abb. 1: Bild mit Daten der Kodak 240 gerendert
Dazu ein Bild, wie es von einer digitalen Vollformatkamera mit 50mm-Objektiv käme und vom Motiv vielleicht zum holländischen Setting passt (Abb. 2).
Abb. 2: Vollformatbild, mit 2000 x 1200px gerendert.
Die Bilder sind natürlich nicht deckungsgleich, da wir verschiedene Objektive und Sensorgrößen haben. An den Stellen des roten Kreuzes wurden nun Ausschnitte gebildet, die hier vergrößert gezeigt werden:
Zuerst der Rand eines Baumes aus Bild 1 (Referenz):
Abb. 3: Ausschnitt aus Bild 1 (Referenz) an der gekennzeichneten Stelle
Der vergleichbare Ausschnitt (siehe rotes Kreuz) im Vollformatbild:
Abb. 4: Ausschnitt aus Bild 2 (Vollformat) an der gekennzeichneten Stelle
Da fällt schon mal auf, dass die höhere Auflösung des Bildes und des Sensors viel mehr Informationen liefern. Das erste Bild würde man als kontrastreicher einschätzen, was dann eventuell eine Klassifikation erleichtert. Das 2. Bild enthält dagegen mehr Helligkeitsdetails über den Übergang dunkel/hell.
4. Der verwendete Algorithmus
Der in On the Local Behavior of Spaces of Natural Images von Carlsson et al. beschriebene Algorithmus, wählt einen „typischen” Ausschnitt von 3 x 3 px. Die (logarithmische) Helligkeit jedes Pixels wird als 9D-Vektor aufgefasst. Von jeder Koordinate wird der Mittelwert aller Koordinaten des Vektors abgezogen, und anschließend der Vektor wird mit einem geeigneten Faktor multipliziert. Das machen wir hier so:
Sei x der Vektor der Helligkeiten eines 3 x 3px-Ausschnittes:
was man einerseits auch als Matrix schreiben kann, und diese Nummerierung verwenden wir:
und andererseits können wir den Vektor x mit seinen Komponenten auch in eine Zeile schreiben und durchzählen von 1 bis 9:
Außerdem sei
… die Helligkeit eines Pixels
an der Stelle i
D sei die 9 x 9-Matrix mit (1, 2, 1, 2, 4, 2, 1, 2, 1) in der Hauptdiagonalen, sonst
Schreibt man die Hauptdiagonale als Quadrat, so erhält man
oder in ein Bild mit Helligkeitsinterpretation der Zahlen ein Mosaik (Abb. 5).
Abb. 5: D in Helligkeiten ausgedrückt.
… sei die Norm eines Vektors x.
… sei der Mittelwert eines Vektors x.
Dann wird x in y transformiert mit:
Diese Transformation “eicht” die Helligkeitsinformation. wird „gerundet“ und im Diagramm (Abb. 7, 9, …, 15) in 11 Helligkeitsstufen ausgegeben.
Aus dem Ausschnitt im Vollformatbild wird durch die Mittelwertbildung des Algorithmus ein kontrastärmeres Bild erzeugt:
Abb. 6: Transformiertes Bild aus Abb. 4.
Vermutlich erleichtert im Ursprungsartikel diese Eingrenzung des Dynamikumfangs durch Weichzeichnung die Klassifikation. Aus fotografischer Sicht wäre das Gegenteil – eine Kontrastanhebung mit einem Hochpassfilter – sinnvoller, um Unterschiede deutlicher zu machen. Natürlich brauchen wir dann auch mehr Helligkeitsstufen, um die Unterschiede darzustellen.
4.1 Ein Spezialfall
Wenn große Flächen dieselbe Helligkeit haben, wird der Mittelwert
sein, und
das heißt, die Information ist verloren. Es interessiert auch nicht, wie groß solche Flächen sind, oder welche „Gestalt“ sie annehmen, es zählt bei diesem Verfahren nur der Rand. Also ist eine unserer Fragen schon beantwortet, dieser Algorithmus enthält nicht die volle Information des Bildes. Er untersucht nur die „Feinstruktur“ von Rändern zusammenhängender Flächen. Ein anderer Algorithmus der Bildverarbeitung – die 2-dimensionale Fouriertransformation – erhält dagegen die gesamte Bildinformation. Er hat jedoch ganz andere Anwendungen.
5. Vollformat-Sensoren
Mit dem Landschaftsfoto aus Abb. 2 und der Aufnahme mit 50 mm Brennweite entsteht kaum Unschärfe, doch die Blätter haben verschiedene Helligkeiten und deren Ränder können gut aufgelöst werden. So haben wir an solchen Stellen ein abwechslungsreiches Diagramm von 6 Ausschnitten.
Abb. 7: Typische lokale Eigenschaften im Vollformatfoto. Der oberste 3 x 3 px- Ausschnitt ist gerade der aus Abb. 6
6. Mittelformat mit Tiefenunschärfe
Aufgrund größerer Sensoren oder Digitalscans vom Film (hier 90 x 60 mm) und einem 150mm-Objektiv können wir jetzt eine Tiefenunschärfe erzeugen. In diesem Unschärfebereich wurden die Ausschnitte gewählt. Nach der Transformation ergeben sich weniger kontrastreiche, aber sehr vielfältige 3 x 3 px-Ausschnitte.
Abb. 8: Mittelformatbild 90 x 60mm, 150mm, f/3,5
Abb. 9: Auswertung von Ausschnitten für das MF-Bild.
7. Mittelformat im Schnee
Nehmen wir mal ein etwas atypisches Landschaftsfoto, was aber immer noch ein Landschaftsfoto ist, denn auch Wetter gehört zur Landschaft, siehe Landscape. Hier haben wir Schnee vor dunklerem Hintergrund. Der Schnee hat eine starke Richtung, aber Bäume im Bild besitzen Kanten mit entgegengesetzter Richtung. Spiegelt sich das in der Analyse von lokalen Eigenschaften wieder? Ja, den dunklen Hintergrund findet man wieder und die hellen Schneeflocken haben eine bevorzugte Richtung.
Abb. 10: Mittelformat-Bild mit Schnee
Abb. 11: Auswertung von typischen Ausschnitten für das MF-Schnee-Bild.
8. Großformat im Schnee
Im Vergleich dazu haben wir ein Großformatfoto gerendert (120 x 100 mm, 600 mm Brennweite). Das Wetter und das Licht sind etwas anders, der Hintergrund ist heller, der Schnee feiner. Löst sich das im Algorithmus auf?
Ja, die transformierten Ausschnitte sind weniger kontrastreich, aber vielfältiger.
Abb. 12: Großformatfoto mit 4000 x 2400 px erzeugt.
Abb. 13: Auswertung von typischen Ausschnitten für das GF-Schnee-Bild.
9. Fisheye
Zum Schluss haben wir noch ein Fisheye auf einer Vollformatkamera. Sie steht nahe der Baumgruppe. Sie bringt andere Geometrien. Aber bringt sie auch andere lokale Eigenschaften?
Die transformierten Ausschnitte neigen stärker als alle anderen zur „Blockbildung“, allerdings wird hier nicht die Senkrechte sondern die Diagonale betont. Hätten wir nicht 3 x 3px, sondern noch mehr, so wäre wohl die Wölbung betont worden.
Abb. 14: Fisheye-Aufnahme, auf 1500 x 900 px gerendert.
Abb. 15: Auswertung von typischen Ausschnitten: am schwarzen Bildrand und an Kanten des Baumes.
10. Fazit
Die Beispiele dieses Beitrags zeigen eine große Vielfalt von transformierten 3 x 3 px- Ausschnitten aus Bildern unterschiedlicher Technologien. Spezielle Settings mit unterschiedlichen Aufnahmetechnologien produzieren Bilder mit Ausschnitten, die nicht die Eigenschaften des Kodak-Referenzbildes haben und sich deutlich voneinander unterscheiden. Die abgeleiteten Diagramme zeigen den lokalen Verlauf des Kontrastes. Eine statistische Auswertung dieser Diagramme kann sicherlich noch mehr Informationen über die verwendete Aufnahmetechnologie erzeugen.
Außerdem ist deutlich, dass lokale Eigenschaften, die homogene Flächen unbeachtet lassen, nicht den vollen Bildinhalt widerspiegeln können.
Die verwendete Kodak-Kamera (von 1994) zählt heute nicht mehr zu den üblichen Kameras. Die Bilder der Datenbank wurden im Originalbeitrag vermutlich speziell aufbereitet, so dass sie gut algorithmisch ausgewertet werden konnten. Dennoch ist die Auflösung sowohl geometrisch mit 3×3 px als auch in der Bilddynamik mit 11 Helligkeitsstufen sehr klein.
11. Ausblick
Lassen Sie uns Landschaftsfotografie mathematisch formulieren, vielfältige Landschaftsfotos von je einer Landschaft mit zeitgemäßen Kameras (ab 4200 x 2800 px) aufnehmen, den Algorithmus sinnvoll variieren und schließlich Kleinsche Flaschen oder andere topologische Strukturen entdecken.
Alle Bilder: © M. Ehret.
Mehr Artikel über Themen der höheren Mathematik – von Quaternionen bis zur Topologie von Funktionenräumen – und ihre Anwendungen im Alltag gibt es auf mathezartbitter.de, einem Projekt der Hochschule Ostwestfalen-Lippe. TK
Kommentare (2)