Wie im letzten Beitrag beschrieben, erfordert eine automatische Mimikerkennung im ersten Schritt eine Lokalisation des Gesichts. In den letzten Jahren wurden für diese Aufgabe einige Verfahren vorgeschlagen.
Bernd Heisele et al. [Heisele01] stellen ein trainierbares System zur Detektion von Gesichtern aus frontaler und fast-frontaler Sicht vor. Dabei wird das Gesicht automatisch in charakteristische Bereiche (Augen, Mund, Wangen, usw.) unterteilt, was die Robustheit des Erkennungsvorgangs bezüglich Kopfbewegungen und teilweiser Verdeckung verbessert. Die Herausforderungen dieses Verfahrens sind zum einen die Auswahl charakteristischer Objektmerkmale und zum anderen die Modellierung der geometrischen Struktur dieser Merkmale.
Als Lösung schlagen Heisele et al. vor, automatisch relevante Merkmale aus 3D Modellen zu lernen. Ausgehend davon vergrößern sie schrittweise eine kleine Suchregion und ermitteln darin robuste Gesichtsbereiche.
Cootes et al. [Cootes 92, Cootes 98] entwickelten statistische Kontur- und Texturmodelle (Active Shape Model, Active Appearance Model) zur Charakterisierung und Erkennung von Gesichtern. Diese statistischen Modelle werden aus annotierten Trainingsbildern erstellt, wobei Statistiken die gegenseitige Position der Konturpunkte dieser Modelle beschreiben. Zusätzlich beinhalten die Statistiken Aussagen über die Beschaffenheit der Oberflächenstruktur. Als wichtigstes Konzept erlauben diese Modelle, die Kontur und die Oberfläche zu verändern. Auf diese Weise wird das Modell an ein zu interpretierendes Gesichtsbild angepasst, bis die Oberfläche des Modells dem Bildinhalt weitestgehend entspricht. Die Modellparameter geben dann Aufschluss über das sichtbare Gesicht, z.B. dessen mimische Ausprägung.
In nächsten Schritt werden mithilfe dieser Lokalisierung aussagekräftige Merkmale für die Emotionserkennung aus dem Bild extrahiert. Dazu in den nächsten Tagen mehr.
Letzte Kommentare