TESIS: Mamadou KEITA
El Sr. Mamadou KEITA defenderá públicamente su trabajo de tesis titulado:
AI-generated image detection using multimodal deep learning.
Detección de imágenes generadas por IA mediante aprendizaje profundo multimodal.
TESIS: Mamadout KEITA - Detección de imágenes generadas por IA mediante aprendizaje profundo multimodal
Mamadou KEITA
Profesorado: 28 de enero de 2026
Anfiteatro - IEMN Site de Valenciennes - UPHF - Valenciennes
Jurado
Relatores:
Examinadores:
- Sr. Azeddine BEGHDADI - Université Sorbonne Paris Nord
- Sr. Yassine RUICHECK - Université de Technologie de Belfort-Montbéliard
Invitados:
- Sr. Smail NIAR - Université Polytechnique Hauts-de- France
- Sra. Atika RIVENQ - Université Polytechnique Hauts-de- France
Supervisores de tesis:
- Sr. Abdelmalik TALEB-AHMED - Université Polytechnique Hauts de France
- Sr. Abdenour HADID - Universidad de la Sorbona, Abu Dhabi (UAE)
Resumen
La inteligencia artificial (IA) generativa y sus aplicaciones ofrecen ventajas considerables, pero plantean cuestiones éticas y sociales potencialmente críticas. Esta tesis explora el campo de la generación y detección de contenido sintético, con especial atención a las imágenes sintéticas. Se trata de imágenes generadas por IA que pueden parecer indistinguibles de las fotografías reales, lo que plantea nuevos retos para la investigación forense digital, la integridad de los medios de comunicación y la confianza del público. Aunque los modelos generativos como las redes generativas adversariales (GAN) y los modelos de difusión han evolucionado rápidamente, la mayoría de los métodos de detección existentes siguen siendo limitados en términos de generalizabilidad, robustez e interpretabilidad. Para hacer frente a estos retos, esta investigación estudia nuevos enfoques basados en la IA para mejorar la generalización, robustez e interpretabilidad de los métodos actuales de detección de imágenes. Los diversos aspectos de la detección de imágenes sintéticas se examinan en esta tesis a través de cuatro contribuciones principales. La primera, titulada Bi-LORA, propone un enfoque eficaz basado en un lenguaje de visión que reformula el problema de detección en forma de tarea de generación de leyendas de imágenes. Este método demuestra una notable capacidad de generalización de cero disparos cuando se enfrenta a modelos generativos aún no vistos. La segunda
denominada RAVID, introduce un marco de detección visual mejorado mediante recuperación. Este marco pretende reforzar la solidez y la interpretabilidad de los sistemas de detección mediante la integración de un contexto visual externo relevante. La tercera contribución, DeeCLIP, presenta un modelo ligero basado en una arquitectura de tipo transformador, que combina características superficiales y profundas para mejorar la resistencia a la degradación visual y a las operaciones de posprocesamiento. Por último, la cuarta contribución, FIDAVL, propone un enfoque unificado para la detección de imágenes sintéticas y la atribución de fuentes, dentro de un marco multitarea basado en el ajuste suave de prontitud en modelos de visión-lenguaje. Esta tesis ofrece un análisis en profundidad del estado actual de la investigación sobre imágenes sintéticas y su impacto en la sociedad. Destaca la importancia y la urgencia de diseñar métodos de detección que sean eficaces y robustos. Los enfoques desarrollados en este trabajo contribuyen al avance de la investigación científica y presentan un potencial de aplicaciones concretas en los campos de la autenticidad de los medios de comunicación y la seguridad digital. Desde esta perspectiva, esta investigación representa un paso significativo hacia el desarrollo de soluciones a los retos planteados por la GenAI.
GenAI.