LipNet – Il software di lettura labiale più accurato

 I ricercatori dell'Università di Oxford hanno creato il software di lettura labiale più accurato: LipNet.

Il software ha raggiunto una precisione del 93,4%, rispetto a solo il 52% del massimo raggiunto da un ricercatore esperto nel settore.

La lettura labiale è il compito di decodificare il testo dal movimento della bocca di chi parla. Gli approcci tradizionali separano il problema in due fasi: progettazione o apprendimento delle caratteristiche visive e previsione. Gli approcci più recenti alla lettura labiale profonda sono addestrabili end-to-end (Wand et al., 2016; Chung e Zisserman, 2016a). Tutti i lavori esistenti, tuttavia, eseguono solo la classificazione delle parole, non la previsione della sequenza a livello di frase. Gli studi hanno dimostrato che le prestazioni umane nella lettura labiale aumentano per le parole più lunghe (Easton e Basala, 1982), indicando l'importanza delle caratteristiche che catturano il contesto temporale in un canale di comunicazione ambiguo. Motivato da questa osservazione, presentiamo LipNet, un modello che mappa una sequenza di fotogrammi video di lunghezza variabile in testo, facendo uso di convoluzioni spaziotemporali, una rete ricorrente LSTM e la perdita di classificazione temporale connessionista, addestrata interamente end-to-end.

La spiegazione scientifica è piuttosto difficile da comprendere per noi "comuni mortali", ma è certo che LipNet potrebbe rivelarsi uno strumento straordinario per le persone con problemi di udito. Il software non analizza la registrazione parola per parola, ma l'intera frase. Utilizza il sistema Deep Learning per decifrare ogni singola parola. Anche se le persone con disabilità sanno già leggere le labbra, ciò potrebbe contribuire ad aumentare la loro comprensione di chi li circonda. Pertanto, chi non ha capacità di lettura labiale non avrebbe più problemi a interagire con una persona che non conosce la lingua dei segni.