logo-InriaRennes logo-IrisaRennes logo-equipeProjetGenScale

Concevoir et partager des workflows d’analyse de données.

Application aux traitements intensifs en bioinformatique

François Moreews

http://people.irisa.fr/Francois.Moreews/

équipe-projet GenScale

Soutenance de thèse - Vendredi 11 décembre 2015

L'exposé [43:52 mn]
img-logoPdfsmall Les transparents
Le Jury
Le résumé
index vidéo des soutenances de thèse
img-logoPdfsmall accès au manuscrit de la soutenance

img-exposeSoutenanceFrancoisMoreews2015

Cliquer sur l'image pour lancer la vidéo (fichier téléchargeable (MP4) img-flecheHAUT

Les membres du Jury:

Sarah COHEN-BOULAKIA : Maître de conférence à l’Université de Paris-Sud / Rapporteur

Christophe ANTONIEWSKI : Directeur de Recherche au CNRS, Institut de Biologie Paris Seine / Rapporteur

David GROSS-AMBLARD : Professeur à l’Université de Rennes 1 / Examinateur

Jean-François GIBRAT : Directeur de Recherche à l’INRA de Jouy-en-Josas, responsable scientifique de l’Institut Français de Bioinformatique / Examinateur

Sébastien FERRÉ : Maître de conférence à l’Université de Rennes 1 / Examinateur

Dominique LAVENIER : Directeur de Recherche au CNRS à l’IRISA / Directeur de thèse

img-flecheHAUT

Résumé:

Dans le cadre d’une démarche d’Open science, nous nous intéressons aux systèmes de gestion de workflows (WfMS) scientifiques et à leurs applications pour l’analyse de données intensive en bioinformatique. Nous partons de l’hypothèse que les WfMS peuvent évoluer pour devenir des plates-formes pivots capables d’accélérer la mise au point et la diffusion de méthodes d’analyses innovantes. Elles pourraient capter et fédérer autour d’une thématique disciplinaire non seulement le public actuel des scientifiques consommateurs de services mais aussi celui des producteurs de services.

Pour cela, nous considérons que ces environnements doivent à la fois être adaptés aux pratiques des scientifiques concepteurs de méthodes et leur fournir un gain de productivité durant la conception et le traitement. Ces constats nous amènent à étudier la capture rapide des workflows, la simplification de l’intégration des tâches techniques, comme le parallélisme nécessaire au haut-débit, et la personnalisation du déploiement. Tout d’abord, nous avons défini un langage graphique DataFlow expressif, adapté à la capture rapide des workflows. Celui-ci est interprétable par un moteur de workflows basé sur un nouveau modèle de calcul doté de performances élevées, obtenues par l’exploitation des multiples niveaux de parallé- lisme.

Nous présentons ensuite une approche de conception orientée modèle qui facilite la génération du parallélisme de données et la production d’implémentations adaptées à différents contextes d’exécution. Nous décrivons notamment l’intégration d’un méta- modèle des composants et des plates-formes, employé pour auto figuration des dépendances des composants.

Enfin, dans le cas du modèle Container as a Service (CaaS), nous avons élaboré une spécification de workflows intrinsèquement diffusable et ré-exécutable. L’adoption de ce type de modèle pourrait déboucher sur une accélération des échanges et de la mise à disposition des chaînes de traitements d’analyse de données.

© 2015 Pôle audiovisuel Inria Rennes- Bretagne Atlantique img-logoFlecheHaut