Topologische Analyse großer Datenmengen ist diesen Monat das Thema im monatlichen Mathe-Essay der AMS: Finding holes in data
Worum es geht: Man hat eine Menge von Daten, die durch irgendwelche Zahlentupel dargestellt werden. Die Punktwolke unten zeigt Daten, die einfach Zahlenpaare sind und sich demzufolge als Punkte in der 2-dimensionalen Ebene repräsentieren lassen. In der Regel werden die Daten aber natürlich aus mehr als nur 2 Zahlenwerten bestehen und dementsprechend wird man sie dann auch nicht in der 2-dimensionalen Ebene, sondern in einem höherdimensionalen Raum darstellen.
Bei dem Bild oben fällt auf, dass es die Punktwolke sich um einen Kreis herum zu häufen scheint.
Bei der persistenten Homologie geht es genau darum, einen formalen Zugang zu einem solchen Phänomen (“die Punktwolke häuft sich um einen Kreis herum”) zu finden. Die formale Definition findet man im Artikel gut beschrieben. Für Topologen kurz zusammengefasst: aus der Punktwolke baut man einen Simplizialkomplex indem man (zu einem festen ε) alle Simplizes hinzufügt, deren Ecken paarweise Abstand kleiner ε haben. Das gibt zu jedem ε einen Simplizialkomplex Xε mit Homologiegruppen H*(Xε) und man kann für ε<ε' schauen, was das Bild von H*(Xε) in H*(Xε’) ist. Aus diesen Informationen gewinnt man den sogenannten “Barcode” der peristenten Homologie.
Als Beispiel wird dann eine Arbeit von Carlsson, Ishkhanov, de Silva und Zomorodian “On the local behavior of spaces of natural images” besprochen, die die in Naturphotos vorkommenden 3×3-Pixel analysiert. (Mathematisch liegen die Helligkeitswerte der 3×3-Pixel in einem 9-dimensionalen Raum, mit zwei Normalisierungen kann man annehmen, dass sie in einer 7-dimensionalen Sphäre liegen.)
Die Autoren nahmen eine Datenbank mit 4167 Photos und analysierten eine Auswahl von insgesamt 4 Millionen in diesen Photos vorkommenden 3×3-Pixel. (Man braucht wohl nicht begründen, warum nur 3×3-Pixel statt der aus 1532×1020 Pixeln bestehenden Gesamtbilder analysiert wurden. Die Auswahl der 4 Millionen 3×3-Pixel war nicht bloß zufällig, es wurden nur solche mit stärkeren Kontrasten ausgewählt.)
Die Analyse zeigt letztlich, dass die Helligkeitswerte sich um eine (in der 7-dimensionalen Sphäre liegende) Kleinsche Flasche herum häufen. Die Erklärung dafür findet man in Kapitel 7 der unten verlinkten Arbeit. Sicherlich ein überraschendes Vorkommen der Kleinschen Flasche in der “Natur”.
Carlsson, G., Ishkhanov, T., de Silva, V., & Zomorodian, A. (2007). On the Local Behavior of Spaces of Natural Images International Journal of Computer Vision, 76 (1), 1-12 DOI: 10.1007/s11263-007-0056-x
Kommentare (8)