THESE : Mamadou KEITA
Monsieur Mamadou KEITA soutiendra publiquement ses travaux de thèse intitulés :
Détection d'images générées par l'IA à l'aide de l'apprentissage profond multimodal.
THESE : Mamadou KEITA - Détection d'images générées par l'IA à l'aide de l'apprentissage profond multimodal
Mamadou KEITA
Soutenance : 28 janvier 2026
Amphithéâtre - IEMN Site de Valenciennes - UPHF - Valenciennes
Jury
Rapporteurs :
- M. Zahid AKHTAR - State University of New York Polytechnic Institute
- Mme Laetitia JOURDAN - CRISTAL, Lille
Examinateurs :
- M. Azeddine BEGHDADI - Université Sorbonne Paris Nord
- M. Yassine RUICHECK - Université de Technologie de Belfort-Montbéliard
Invités :
- M. Smail NIAR - Université Polytechnique Hauts-de- France
- Mme Atika RIVENQ - Université Polytechnique Hauts-de- France
Directeurs de thèse :
- M. Abdelmalik TALEB-AHMED - Université Polytechnique Hauts de France
- M. Abdenour HADID - Sorbonne University, Abu Dhabi (UAE)
Résumé
L'intelligence artificielle générative (IA) et ses applications offrent des avantages considérables, maissoulèvent des questions sociétales et éthiques potentiellement critiques. Cette thèse explore ledomaine de la génération et de la détection de contenus synthétiques, en mettant particulièrementl'accent sur les images synthétiques. Il s'agit d'images générées par l'IA qui peuvent paraîtreindiscernables de photographies réelles, ce qui crée de nouveaux défis pour la criminalistiquenumérique, l'intégrité des médias et la confiance du public. Alors que les modèles génératifs tels queles réseaux antagonistes génératifs (GANs) et les modèles de diffusion ont connu une évolution rapide,la plupart des méthodes de détection existantes restent limitées en termes de généralisation, derobustesse et d'interprétabilité. Pour relever ces défis, cette recherche étudie de nouvelles approchesbasées sur l'IA afin d'améliorer la généralisation, la robustesse et l'interprétabilité des méthodesactuelles de détection d'images. Les différents aspects de la détection d’images synthétiques sontexaminés dans cette thèse à travers quatre contributions majeures. La première contribution, intituléeBi-LORA, propose une approche vision–langage efficace qui reformule le problème de détection sous laforme d’une tâche de génération de légendes d’images. Cette méthode démontre une capacité degénéralisation zero-shot remarquable face à des modèles génératifs encore non vus. La deuxième
contribution, nommée RAVID, introduit un cadre de détection visuelle enrichi par la recherche d’images(retrieval-augmented visual detection). Ce cadre vise à renforcer la robustesse et l’interprétabilité dessystèmes de détection en intégrant un contexte visuel externe pertinent. La troisième contribution,DeeCLIP, présente un modèle léger fondé sur une architecture de type transformeur, qui combine descaractéristiques superficielles et profondes afin d’améliorer la résilience aux dégradations visuelles etaux opérations de post-traitement. Enfin, la quatrième contribution, FIDAVL, propose une approcheunifiée de la détection d’images synthétiques et de l’attribution à la source, au sein d’un cadremultitâche reposant sur l’ajustement souple des invites (soft prompt tuning) dans les modèles vision–langage. Cette thèse propose une analyse approfondie de l’état actuel de la recherche sur les imagessynthétiques ainsi que de leurs impacts sociétaux. Elle souligne l’importance et l’urgence de concevoirdes méthodes de détection à la fois efficaces et robustes. Les approches développées dans ce travailcontribuent à l’avancement de la recherche scientifique et présentent un potentiel d’application concretdans les domaines de l’authenticité des médias et de la sécurité numérique. Dans cette perspective,cette recherche constitue une étape significative vers le développement de solutions face aux défiséthiques soulevés par le GenAI.