Sur un plan théorique, jétudie les mélanges généralisés de lois de probabilité (identifiabilité, méthodes destimation des paramètres). Ces travaux, qui ont débouché sur un ensemble de publications, commencent à être reconnus et à être utilisés pour des applications. Ils ont aussi permis douvrir une nouvelle voie de recherche en fournissant des systèmes algébriques complexes que nous étudions actuellement par le moyen du calcul formel (Matlab, Maple) en collaboration avec léquipe du LIP6.
Sur un plan algorithmique, je me suis intéressé au développement de méthodes probabilistes ainsi quà la programmation (en C, C++) de leurs applications statistiques à la segmentation bayésienne non supervisée dimages dont le modèle de bruit est basé sur les mélanges généralisés. Je me suis, en particulier, concentré sur une modélisation du processus caché basée sur les arbres de Markov cachés, modèles favorisant notamment les segmentations multi-échelles ou multi-capteurs. Je mintéresse actuellement aux processus de Markov Couple, qui permettent une généralisation stricte des processus de Markov cachés ainsi qu'aux processus de Markov Triplet qui permettent en particulier de modéliser des processus non stationnaires. Les applications en segmentation non supervisée des images montrent l'intérêt de tels modèles qui offrent la perspective de nombreuses applications originales, notamment en biostatistique.
Dans le cadre du projet décrypthon, je cherche à intégrer des méthodes génératives d'apprentissage multi-classes (M-SVM) et des méthodes discriminantes basées sur de tels processus afin d'optimiser la reconnaissance des sites d'épissage alternatifs et constitutifs des gènes humains. La question théorique de la sélection de modèles dans le cas multi-classes est évidemment au coeur du projet. Ce travail sur de très grandes bases de données biologiques demande, outre la nécessité d'assurer la coordination entre les différents partenaires (MAEM, CNRS, IBM, autres collaborations universitaires), un fort investissement en programmation mathématique et en parallélisation, l'objectif étant d'utiliser toutes les ressources des supercalculateurs mis à la disposition du projet.