LipNet – Tarkin huultenlukuohjelmisto

 Oxfordin yliopiston tutkijat ovat luoneet tarkimman huultenlukuohjelmiston - LipNetin.

Ohjelmisto saavutti 93,4 prosentin tarkkuuden, kun taas alan asiantuntijatutkijan saavuttama maksimi on vain 52 prosenttia.

Lipreading on tehtävä, joka purkaa tekstiä puhujan suun liikkeestä. Perinteiset lähestymistavat jakavat ongelman kahteen vaiheeseen: visuaalisten ominaisuuksien suunnittelu tai oppiminen ja ennustaminen. Uudemmat syvän huulten lukumenetelmät ovat päästä päähän koulutettavissa (Wand et al., 2016; Chung & Zisserman, 2016a). Kaikki olemassa olevat teokset suorittavat kuitenkin vain sanaluokituksen, eivät lausetason sekvenssiennustusta. Tutkimukset ovat osoittaneet, että ihmisen huultenlukukyky paranee pitkien sanojen kohdalla (Easton & Basala, 1982), joka osoittaa ajallisen kontekstin vangitsevien ominaisuuksien tärkeyden epäselvässä viestintäkanavassa. Tämän havainnon motivoimana esittelemme LipNetin, mallin, joka kartoittaa vaihtelevan pituuden videokehysten sekvenssin tekstiin hyödyntäen spatiotemporaalisia konvoluutioita, toistuvaa LSTM-verkkoa ja konnektionistista ajallista luokitteluhäviötä, joka on koulutettu kokonaan päästä päähän.

Tieteellinen selitys on meille "tavallisille kuolevaisille" melko vaikea ymmärtää, mutta on varmaa, että LipNet voisi toimia poikkeuksellisena työkaluna kuulovammaisille. Ohjelmisto ei analysoi tallennusta sana sanalta, vaan koko lausetta. Se käyttää Deep Learning -järjestelmää jokaisen yksittäisen sanan tulkitsemiseen. Vaikka vammaiset jo osaavat lukea huulilta, se voi auttaa lisäämään ymmärrystä ympärillään olevista ihmisistä. Näin ollen niillä, joilla ei ole huultenlukutaitoa, ei enää olisi ongelmia vuorovaikutuksessa sellaisen henkilön kanssa, joka ei osaa viittomakieltä.