LipNet – Den mest exakta mjukvaran för läppläsning

 Forskare från ett Oxford-universitet har skapat den mest exakta mjukvaran för läppläsning - LipNet.

Mjukvaran uppnådde en noggrannhet på 93,4 %, jämfört med endast 52 % av det maximala som en expertforskare på området uppnådde.

Läppläsning är uppgiften att avkoda text från rörelsen i en talares mun. Traditionella tillvägagångssätt delar upp problemet i två steg: att designa eller lära sig visuella funktioner och förutsägelse. Nyare metoder för djup läppläsning är träningsbara från början till slut (Wand et al., 2016; Chung & Zisserman, 2016a). Alla befintliga verk utför dock endast ordklassificering, inte sekvensprediktion på meningsnivå. Studier har visat att människans läppavläsningsprestanda ökar för längre ord (Easton & Basala, 1982), vilket indikerar vikten av funktioner som fångar tidsmässiga sammanhang i en tvetydig kommunikationskanal. Motiverade av denna observation presenterar vi LipNet, en modell som kartlägger en sekvens av videorutor med variabel längd till text, med användning av spatiotemporala faltningar, ett återkommande LSTM-nätverk och den anslutningistiska tidsklassificeringsförlusten, tränad helt från början.

Den vetenskapliga förklaringen är ganska svår för oss, "vanliga dödliga", att förstå, men det är säkert att LipNet skulle kunna fungera som ett extraordinärt verktyg för personer med hörselnedsättning. Programvaran analyserar inte inspelningen ord för ord, utan hela meningen. Den använder Deep Learning-systemet för att dechiffrera varje enskilt ord. Även om personer med funktionsnedsättning redan vet hur man avläser läppar, kan det bidra till att öka deras förståelse för omgivningen. De utan läppavläsningsförmåga skulle alltså inte längre ha problem att interagera med en person som inte kan teckenspråk.