LipNet – Die genaueste Lippenlesesoftware

 Forscher einer Universität in Oxford haben die genaueste Lippenlesesoftware entwickelt – LipNet.

Die Software erreichte eine Genauigkeit von 93,4 %, im Vergleich zu nur 52 % des Maximums, das ein erfahrener Forscher auf diesem Gebiet erreichte.

Unter Lippenlesen versteht man die Aufgabe, Text anhand der Mundbewegungen eines Sprechers zu entschlüsseln. Herkömmliche Ansätze unterteilen das Problem in zwei Phasen: das Entwerfen oder Erlernen visueller Merkmale und die Vorhersage. Neuere Deep-Lipreading-Ansätze sind durchgängig trainierbar (Wand et al., 2016; Chung & Zisserman, 2016a). Alle existierenden Werke führen jedoch nur eine Wortklassifizierung durch, keine Sequenzvorhersage auf Satzebene. Studien haben gezeigt, dass die Lippenleseleistung des Menschen bei längeren Wörtern zunimmt (Easton & Basala, 1982)Dies weist auf die Bedeutung von Funktionen hin, die den zeitlichen Kontext in einem mehrdeutigen Kommunikationskanal erfassen. Motiviert durch diese Beobachtung präsentieren wir LipNet, ein Modell, das eine Sequenz von Videobildern variabler Länge auf Text abbildet und dabei raumzeitliche Faltungen, ein wiederkehrendes LSTM-Netzwerk und den konnektionistischen zeitlichen Klassifizierungsverlust nutzt, das vollständig Ende-zu-Ende trainiert wird.

Die wissenschaftliche Erklärung ist für uns „Normalsterbliche“ ziemlich schwer zu verstehen, aber es ist sicher, dass LipNet als außergewöhnliches Werkzeug für Menschen mit Hörbehinderung dienen könnte. Die Software analysiert nicht die Aufnahme Wort für Wort, sondern den gesamten Satz. Es nutzt das Deep-Learning-System, um jedes einzelne Wort zu entschlüsseln. Selbst wenn Menschen mit Behinderungen bereits Lippenlesen können, könnte dies dazu beitragen, ihr Verständnis für ihre Mitmenschen zu verbessern. Somit hätten Personen ohne Lippenlesefähigkeiten keine Probleme mehr, mit einer Person zu interagieren, die die Gebärdensprache nicht beherrscht.