Composition du Jury:
• Jean Roman / rapporteur - Professeur, Institut Polytechnique de Bordeaux, France
• Toni Cortes / rapporteur - Associate Professor, Universitat Politècnica de Catalunya, Spain
• Franck Cappello / examinateur - Senior Computer Scientist, Argonne National Laboratory, IL, USA
• Jean-François Méhaut / examinateur - Professeur, Université de Grenoble 1, France
• Gabriel Antoniu / directeur de thèse - Directeur de recherche, Inria Rennes - Bretagne Atlantique, France
• Luc Bougé / directeur de thèse - Professeur, ENS Rennes, France
Résumé:
Les machines dépassant le million de cœurs sont devenues une réalité avec Sequoia, un supercalculateur mis en production à LLNL en 2012. D'après la loi de Moore, les machines exaflopiques (capable d'exécuter 10^18 opérations par seconde) sont attendues pour 2018. Une telle puissance de calcul est utilisée dans de nombreux domaines de recherche tels que la géologie, la biologie, le climat, ou la cosmologie, où les simulations à grande échelle sont menées pour mieux comprendre les phénomènes physiques qui nous entourent. Mais de plus grosses machines signifient également de plus gros volumes de données qui doivent être stockés et traités efficacement afin d'en retirer une valeur scientifique.
Dans cette présentation, nous donnerons un aperçu de certaines approches de gestion de données proposés dans notre thèse. Nous commencerons par introduire Damaris, une approche qui tire parti des architectures multicœurs présentes dans les supercalculateurs récents afin de relocaliser sur des cœurs dédiés certaine tâches de gestion de données. Nous étudierons en particulier comment Damaris peut être utilisé pour cacher la variabilité des performances des E/S (Entrées/Sorties), et pour améliorer le passage à l'échelle ainsi que le débit des E/S des applications. Nous présenterons ensuite une extension de Damaris permettant d'opérer une visualisation dite "in situ" des simulations sans affecter les performances de cette dernière. Enfin nous étudierons l'effet de la concurrence entre les E/S d'applications distinctes sur les performances des systèmes de stockage parallèle.