logo-projetIntuiDoc logo-Irisa
img-logoInsaRennes

Inférence semi-automatique et interactive de règles avec ou sans vérité terrain pour la reconnaissance de structure de documents

Cérès Carton

Doctorante INSA au sein de l'équipe-projet IntuiDoc

Soutenance de thèse - Mercredi 23 mars 2016

img-logoPdfsmall Les transparents
Le Jury
Le résumé
index vidéo des soutenances de thèse

img-exposeSoutenanceLeCui2016

Cliquer sur l'image pour lancer la vidéo (fichier téléchargeable (MP4) img-flecheHAUT

Les membres du Jury:

Josep Lladós, Associate Professor à l'UAB Barcelone (Espagne), Rapporteur

Thierry Paquet, Professeur à l'Université de Rouen, Rapporteur

Jean-Marc Ogier, Professeur à l'Université de La Rochelle, Examinateur et Président de Jury

Christian Viard-Gaudin, Professeur à l'Université de Nantes, Examinateur

Christopher Kermorvant, Président de Teklia SAS, Invité

Bertrand Coüasnon, Maître de conférences (HDR) à l'INSA de Rennes, Directeur de thèse

Aurélie Lemaitre, Maître de de conférences à l'Université de Rennes 2, Co-encadrante

img-flecheHAUT

Résumé:

Les documents à traiter dans le domaine de l'analyse de la structure de documents sont de plus en plus complexes et les corpus de plus en plus hétérogènes. Nous proposons une nouvelle méthode, la méthode Eyes Wide Open (EWO) pour introduire une phase d'apprentissage semi-automatique et interactive dans la construction de descriptions grammaticales. Grâce à la méthode EWO, il est possible de disposer du grand pouvoir d'expression des méthodes syntaxiques tout en ayant l'adaptabilité des méthodes statistiques.
La méthode EWO permet d'inférer des règles afin de construire de manière progressive la description grammaticale complète des documents. L'inférence des règles concerne à la fois la structure logique et la structure physique des documents. La méthode EWO repose sur deux éléments majeurs : l'émergence automatique de structures grâce à un algorithme de clustering et une interaction avec l'utilisateur pour donner un sens aux structures détectées automatiquement.

Notre méthode permet de plus l'inférence des règles sans vérité terrain annotée disponible sur les documents. Pour ce faire, la méthode EWO repose sur l'analyse de redondances dans de grands volumes de documents non annotés. La détection des redondances est faite automatiquement grâce à un algorithme de clustering. Les éléments détectés automatiquement sont ensuite fiabilisés par l'utilisateur afin d'obtenir les données étiquetées d'apprentissage.

La méthode EWO apporte une vision exhaustive et synthétique des données à analyser. Cela permet une meilleure exploitation du corpus que pour les méthodes syntaxiques décrites manuellement. Cela permet de plus une meilleure gestion des cas rares que ce qui est possible pour les méthodes statistiques.
Nous avons validé l'efficacité cette approche sur des documents à structure variée (courriers manuscrits, registres d'archives, formulaires...). Pour chaque corpus de documents, des descriptions grammaticales ont été générées avec à la méthode EWO, obtenant des performances comparables ou meilleures que celles de systèmes pré-existants décrits manuellement. La méthode a également été appliquée avec succès sur un large corpus sans vérité terrain.

img-logoFlecheHaut
© 2016 Pôle audiovisuel Inria Rennes- Bretagne Atlantique