LipNet – De meest nauwkeurige lipleessoftware

 Onderzoekers van een universiteit in Oxford hebben de meest nauwkeurige software voor liplezen ontwikkeld: LipNet.

De software behaalde een nauwkeurigheid van 93,4%, vergeleken met slechts 52%, het maximum dat werd bereikt door een deskundige onderzoeker in het veld.

Liplezen is de taak van het decoderen van tekst uit de beweging van de mond van een spreker. Traditionele benaderingen verdelen het probleem in twee fasen: het ontwerpen of leren van visuele kenmerken, en voorspellen. Recentere benaderingen van diepliplezen zijn end-to-end trainbaar (Wand et al., 2016; Chung & Zisserman, 2016a). Alle bestaande werken voeren echter alleen woordclassificatie uit, en geen volgordevoorspelling op zinsniveau. Studies hebben aangetoond dat de prestaties van mensen bij het liplezen toenemen bij langere woorden (Easton en Basala, 1982), wat het belang aangeeft van functies die de tijdelijke context vastleggen in een dubbelzinnig communicatiekanaal. Gemotiveerd door deze observatie presenteren we LipNet, een model dat een reeks videoframes met variabele lengte aan tekst koppelt, gebruik makend van spatiotemporele convoluties, een terugkerend LSTM-netwerk en het verbindingsverlies van temporele classificatie, volledig end-to-end getraind.

De wetenschappelijke verklaring is voor ons, “gewone stervelingen”, vrij moeilijk te begrijpen, maar het is zeker dat LipNet zou kunnen dienen als een buitengewoon hulpmiddel voor mensen met gehoorproblemen. De software analyseert de opname niet woord voor woord, maar de hele zin. Het maakt gebruik van het Deep Learning-systeem om elk afzonderlijk woord te ontcijferen. Zelfs als mensen met een handicap al kunnen liplezen, kan dit hun begrip van de mensen om hen heen helpen vergroten. Mensen zonder liplezen zouden dus geen problemen meer hebben met de interactie met iemand die geen gebarentaal kent.