Composition du Jury:
Jacques Nicolas, Directeur de recharche à Inria, Rennes (Directeur de thèse)
François Coste, Chargé de recherce à Inria, Rennes (Co-directeur de thèse)
Jean-Christophe Janodet, Professeur à l'Université d'Evry-Val-d'Essonne (Rapporteur)
Amedeo Napoli, Directeur de recherche au Loria, Nancy (Rapporteur)
Colin De La Higuera, Professeur à l'Université de Nantes (Examinateur)
Olivier Ridoux, Professeur à l'Université de Rennes 1 (Examinateur)
Mirjam Czjzek, Directrice de recherche CNRS, Roscoff (Examinatrice)
Supervisors : Jacques Nicolas and François Coste
Résumé:
Cette thèse propose une nouvelle approche de découverte de signatures de familles (et superfamilles) d'enzymes. Dans un premier temps, étant donné un échantillon aligné de séquences appartenant à une même famille, cette approche infère des grammaires algébriques caractérisant cette famille. Pour ce faire, de nouveaux principes de généralisation et de nouvelles classes de langages ont été introduites sur la base de la substituabilité locale. Un algorithme a également été développé à cet effet qui produit une grammaire réduite, conservant la structuration des exemples, d'un langage substituable.
Dans un second temps, ce manuscrit présente une méthode de classification des séquences d'une superfamille en familles à l'aide d'une analyse de concepts formels basée sur l'alignement des séquences qui permet la détection de nouvelles familles et la découverte des motifs fonctionnels pour améliorer les signatures précédentes.