logo-irisa    

Habilitation à Diriger des Recherches

" Intégration de connaissances par modèles probabilistes
pour l'analyse de documents multimédias"

img-gravier-small Guillaume Gravier (projet Metiss)
Irisa - 29 septembre 2009

Le résumé

Par essence, un document multimédia comporte plusieurs sources d'informations portées par une seule ou plusieurs modalités. L'analyse de documents multimédias vise à exploiter ces sources d'informations, que nous appellerons connaissances, pour extraire une représentation d'un document à des fins de structuration ou d'indexation. Exploiter l'ensemble des connaissances disponibles, qu'il s'agisse de connaissances a priori concernant un document ou d'observations - c'est-à-dire de connaissances a posteriori - provenant éventuellement de différentes modalités, nécessite de disposer de modèles adaptés pour les représenter. Mes travaux de recherche se placent dans ce contexte et ont pour objectif de proposer et étudier de nouvelles approches, formulées dans un cadre probabiliste, pour modéliser conjointement les connaissances disponibles pour l'analyse de documents multimédias.
Nous aborderons tout d'abord la fusion de connaissances homogènes pour la structuration de vidéos de sport : on parlera de modèles de Markov multiflux, de modèles de segments et d'apprentissage de structure dans les réseaux bayésiens (thèses de Ewa Kijak, Emmanouil Delakis et Siwar Baghdadi). On s'intéressera ensuite à la fusion de connaissances hétérogènes dans le cadre du traitement de la parole : je présenterai mes travaux sur l'intégration de connaissances morpho-syntaxiques et sur l'adaptation thématique non supervisée ainsi que sur la fusion d'indices acoustiques, lexicaux et syntaxiques dans un modèle de segment pour la segmentation thématique (thèses de Stéphane Huet et de Gwénolé Lecorvé).
Enfin, nous parlerons du paradigme de décodage guidé pour l'intégration de connaissances sporadiques, c'est-à-dire apportant une information sur une partie seulement du document. Ce paradigme sera illustré dans trois applications : l'exploitation des répétitions pour structurer les flux TV, la prise en compte des scores dans les vidéos de sport, et l'utilisation d'ancres macrophonétiques en reconnaissance de la parole (thèses de Xavier Naturel et Manolis Delakis ; post-doc de Daniel Moraru).

À partir de ce bilan de mes travaux, nous évoquerons trois perspectives à court et moyen termes : l'intégration dans un cadre applicatif des travaux sur la structuration des flux télévisés, l'extension du modèle de segment multiflux pour inclure la sémantique portée par la parole et une généralisation du paradigme de décodage guidé à de nouveaux modèles d'interactions entre modules d'analyse. Nous finirons par quelques pistes à long terme visant à limiter le recours à la supervision dans la conception et l'apprentissage de modèles statistiques.
img-logo pdf accès aux transparents (pdf)
la vidéo [49:50]
-->

Accès aux transparents (pdf) img-logo pdf

La vidéo [49:50]

accès à la page d'index des HDR (depuis 2001)
retour vidéothèque

© 2009 Pôle audiovisuel de l'Irisa