LipNet – Najdokładniejsze oprogramowanie do czytania z ruchu warg

 Naukowcy z uniwersytetu w Oksfordzie stworzyli najdokładniejsze oprogramowanie do czytania z ruchu warg - LipNet.

Oprogramowanie osiągnęło dokładność na poziomie 93,4%, w porównaniu do zaledwie 52% maksymalnej osiągniętej przez eksperta w tej dziedzinie.

Czytanie z ruchu warg polega na dekodowaniu tekstu na podstawie ruchu ust osoby mówiącej. Tradycyjne podejścia dzielą problem na dwa etapy: projektowanie lub uczenie się cech wizualnych oraz przewidywanie. Nowsze podejścia do głębokiego czytania z ruchu warg można przeszkolić od początku do końca (Wand i in., 2016; Chung i Zisserman, 2016a). Jednak wszystkie istniejące prace dokonują jedynie klasyfikacji słów, a nie przewidywania sekwencji na poziomie zdania. Badania wykazały, że umiejętność czytania z ruchu warg u człowieka wzrasta w przypadku dłuższych słów (Easton i Basala, 1982), wskazując na znaczenie cech uchwycających kontekst czasowy w niejednoznacznym kanale komunikacyjnym. Motywowani tą obserwacją przedstawiamy LipNet, model, który odwzorowuje sekwencję klatek wideo o zmiennej długości na tekst, wykorzystując sploty czasoprzestrzenne, rekurencyjną sieć LSTM i koneksjonistyczną utratę klasyfikacji czasowej, przeszkolony całkowicie od końca do końca.

Naukowe wyjaśnienie jest dla nas, „zwykłych śmiertelników”, dość trudne do zrozumienia, ale pewne jest, że LipNet może służyć jako niezwykłe narzędzie dla osób z wadą słuchu. Oprogramowanie nie analizuje nagrania słowo po słowie, ale całe zdanie. Wykorzystuje system głębokiego uczenia się do rozszyfrowania każdego pojedynczego słowa. Nawet jeśli osoby niepełnosprawne już wiedzą, jak czytać z ruchu warg, może to pomóc w lepszym zrozumieniu otaczających ich osób. Dzięki temu osoby nieposiadające umiejętności czytania z ruchu warg nie będą miały już problemów w interakcji z osobą nieznającą języka migowego.