Étude de la fusion des données hétérogènes pour la reconnaissance automatique de la parole audiovisuelle
Thèse présentée et soutenue publiquement le 9 juillet 1999 pour l'obtention du Doctorat de l'Université d'Orsay - Paris XI

par Rogozan Alexandrina

devant le Jury : Président : Monsieur Jean-Sylvain Liénard, directeur de recherche au LIMSI, Université Paris XI

                             Rapporteurs : Madame Régine André-Obrecht, professeur à l'IRIT, Université P. Sabatier à Toulouse

                                                           Monsieur Jean-François Mari, professeur à l'INRIA, Université de Nancy 2
                             Directeur de thèse : Monsieur Paul Deléglise, professeur au LIUM, Université du Maine

                             Examinateur : Monsieur Jordi Robert-Ribes

L'utilisation de connaissances supplémentaires conjointement au signal de parole est une méthode classique pour améliorer les performances et la robustesse des systèmes de reconnaissance automatique de la parole. De nombreux travaux sur la perception de la parole ayant montré l'importance des informations visuelles dans le processus de reconnaissance chez l'homme, l'utilisation de données sur la forme et le mouvement des lèvres du locuteur semble être une voie prometteuse pour la reconnaissance automatique, surtout en milieux sonores bruités.

L'objet de nos travaux de recherche concerne l'intégration des informations visuelles aux informations acoustiques en vue de leur exploitation pour la reconnaissance automatique de la parole. Si cette exploitation est fort séduisante, la problématique qu'elle soulève est, cependant, loin d'être simple. Tout d'abord, se pose la question du niveau d'intégration : est-ce le niveau de données ou celui de résultats ? Puis il y a les phénomènes de décalage temporel entre la réalisation auditive et la réalisation visuelle d'un phonème. Ensuite intervient le problème d'adaptation des contributions des modalités acoustique et visuelle selon leur fiabilité relative. Enfin se pose la question de la pertinence de l'utilisation, pour le traitement du signal visuel de parole, d'unités de décision spécifiques, nommées visèmes.

Les systèmes audiovisuels que nous avons développés, en utilisant les modèles de Markov cachés continus, respectent successivement les schémas suivants : fusion des données acoustiques et visuelles par identification directe (ID), fusion des résultats acoustiques et visuels après identification séparée (IS) et fusion hybride de type ID+IS. Chaque modalité est impliquée dans le processus de reconnaissance avec un poids différent. Celui-ci est adapté dynamiquement en fonction du rapport signal sur bruit et du contenu phonétique des phrases prononcées.

Nous avons testé les performances des systèmes sur un corpus de lettres épelées prononcé en élocution continue par un seul locuteur. Les tests réalisés avec différents niveaux de bruit ont montré que, d'une part, de meilleures performances sont obtenues pour le système basé sur une fusion hybride ID+IS que pour ceux basés sur ID ou IS, et que, d'autre part, les résultats des systèmes audiovisuels sont améliorés en utilisant une pondération adaptative des modalités acoustique et visuelle.

Nos expériences ont également montré qu'il y a possibilité d'améliorer les performances du système audiovisuel le plus prometteur, basé sur ID+IS, par la définition et l'utilisation d'un ensemble des visèmes adapté à la tâche de reconnaissance. Nous avons défini cet ensemble à partir des données visuelles du locuteur au moyen des cartes auto-organisantes de Kohonen. Pour renforcer le rôle de visèmes, nous les avons utilisés avec un apprentissage discriminant fondé sur un réseau de neurones multi-couches à retard.

Nos travaux de recherche ont ainsi abouti à un système audiovisuel à fusion adaptative hybride de type ID+IS, dont la composante purement visuelle est visémique et discriminante. Ce système est cohérent avec de modèles cognitifs hybrides issus récemment des études de perception audiovisuelle de la parole.