Acasa actualización de software LipNet: el software de lectura de labios más preciso

LipNet: el software de lectura de labios más preciso

Por

-

Nov. 10, 2016, 1:30

Investigadores de la Universidad de Oxford han creado el software de lectura de labios más preciso: LipNet.

El software logró una precisión del 93,4%, frente a sólo el 52% del máximo alcanzado por un investigador experto en la materia.

La lectura de labios es la tarea de decodificar texto a partir del movimiento de la boca de un hablante. Los enfoques tradicionales separan el problema en dos etapas: diseñar o aprender características visuales y predicción. Los enfoques más recientes de lectura profunda de labios se pueden entrenar de un extremo a otro (Wand et al., 2016; Chung y Zisserman, 2016a). Sin embargo, todos los trabajos existentes realizan únicamente clasificación de palabras, no predicción de secuencia a nivel de oración. Los estudios han demostrado que el rendimiento de la lectura de labios humana aumenta en el caso de palabras más largas. (Easton y Basala, 1982), lo que indica la importancia de que las características capturen el contexto temporal en un canal de comunicación ambiguo. Motivados por esta observación, presentamos LipNet, un modelo que asigna una secuencia de cuadros de video de longitud variable a texto, haciendo uso de convoluciones espaciotemporales, una red recurrente LSTM y la pérdida de clasificación temporal conexionista, entrenado completamente de un extremo a otro.

La explicación científica es bastante difícil de entender para nosotros, los "mortales comunes y corrientes", pero lo cierto es que LipNet podría servir como una herramienta extraordinaria para personas con discapacidad auditiva. El software no analiza la grabación palabra por palabra, sino la frase completa. Utiliza el sistema Deep Learning para descifrar cada palabra individual. Incluso si las personas con discapacidad ya saben leer los labios, esto podría ayudar a aumentar su comprensión de quienes los rodean. Por lo tanto, aquellos que no saben leer los labios ya no tendrían problemas para interactuar con una persona que no conoce el lenguaje de señas.