LipNet – Le logiciel de lecture labiale le plus précis

 Des chercheurs d'une université d'Oxford ont créé le logiciel de lecture labiale le plus précis : LipNet.

Le logiciel a atteint une précision de 93,4%, contre seulement 52% du maximum atteint par un chercheur expert dans le domaine.

La lecture labiale est la tâche qui consiste à décoder le texte à partir du mouvement de la bouche d'un locuteur. Les approches traditionnelles divisent le problème en deux étapes : la conception ou l'apprentissage de caractéristiques visuelles et la prédiction. Les approches plus récentes de lecture labiale profonde peuvent être entraînées de bout en bout (Wand et coll., 2016 ; Chung et Zisserman, 2016a). Cependant, tous les travaux existants effectuent uniquement une classification de mots, et non une prédiction de séquence au niveau des phrases. Des études ont montré que les performances de lecture labiale humaine augmentent avec des mots plus longs (Easton et Basala, 1982), indiquant l'importance des fonctionnalités capturant le contexte temporel dans un canal de communication ambigu. Motivés par cette observation, nous présentons LipNet, un modèle qui mappe une séquence d'images vidéo de longueur variable en texte, en utilisant des convolutions spatio-temporelles, un réseau récurrent LSTM et la perte de classification temporelle connexionniste, entièrement entraînée de bout en bout.

L'explication scientifique est assez difficile à comprendre pour nous, « mortels ordinaires », mais il est certain que LipNet pourrait constituer un outil extraordinaire pour les personnes malentendantes. Le logiciel n’analyse pas l’enregistrement mot par mot, mais la phrase entière. Il utilise le système Deep Learning pour déchiffrer chaque mot individuellement. Même si les personnes handicapées savent déjà lire sur les lèvres, cela pourrait les aider à mieux comprendre leur entourage. Ainsi, ceux qui ne savent pas lire sur les lèvres n’auront plus de problèmes pour interagir avec une personne ne connaissant pas la langue des signes.