LipNet – Den mest nøjagtige læbelæsningssoftware

 Forskere fra et Oxford-universitet har skabt den mest nøjagtige læbelæsningssoftware - LipNet.

Softwaren opnåede en nøjagtighed på 93,4 %, sammenlignet med kun 52 % af det maksimale opnået af en ekspertforsker på området.

Læbelæsning er opgaven med at afkode tekst fra bevægelsen af ​​en talers mund. Traditionelle tilgange adskiller problemet i to faser: design eller indlæring af visuelle funktioner og forudsigelse. Nyere tilgange til dyb læbelæsning kan trænes fra ende til ende (Wand et al., 2016; Chung & Zisserman, 2016a). Alle eksisterende værker udfører dog kun ordklassificering, ikke sekvensforudsigelse på sætningsniveau. Undersøgelser har vist, at menneskelig læbelæsnings ydeevne øges for længere ord (Easton & Basala, 1982), hvilket indikerer vigtigheden af ​​funktioner, der fanger tidsmæssig kontekst i en tvetydig kommunikationskanal. Motiveret af denne observation præsenterer vi LipNet, en model, der kortlægger en sekvens af videoframes med variabel længde til tekst, ved at gøre brug af spatiotemporale foldninger, et LSTM tilbagevendende netværk og det forbindelsesmæssige tidsmæssige klassifikationstab, trænet helt fra ende til ende.

Den videnskabelige forklaring er ret svær for os, "almindelige dødelige", at forstå, men det er sikkert, at LipNet kunne fungere som et ekstraordinært værktøj for mennesker med hørenedsættelse. Softwaren analyserer ikke optagelsen ord for ord, men hele sætningen. Den bruger Deep Learning-systemet til at dechifrere hvert enkelt ord. Selvom mennesker med handicap allerede ved, hvordan man læser læber, kan det hjælpe med at øge deres forståelse af dem omkring dem. De uden mundaflæsning vil således ikke længere have problemer med at interagere med en person, der ikke kan tegnsprog.