AutoComics: Ilustración de comics a partir de descripciones textuales utilizando Deep Learning
Autor(es) y otros:
Director(es):
Fecha de publicación:
Serie:
Grado en Ingeniería Informática en Tecnologías de la Información
Descripción física:
Resumen:
Los modelos generativos aprenden a describir un dataset como una colección de muestras aleatorias extraídas de una distribución de probabilidad de alta dimensionalidad. Una tarea generativa se consigue a partir de tomar nuevas muestras, como imágenes o texto, que no existen en el conjunto de entrenamiento pero que mantienen las características generales, tales como la coherencia y el realismo, de los datos originales. En los años recientes hemos presenciado avances notables en este campo, especialmente relacionados con imagen realista (GANs, VAEs, modelos de difusión) y el modelado de lenguaje natural (GPT, BERT). Modelos de lenguaje grandes como GPT-3 han sido utilizados también para la creación de CLIP, un modelo que es capaz de anotar imágenes automáticamente con texto autogenerado. En este TFG, se propone utilizar CLIP para dirigir un modelo generativo de imágenes naturales que ilustrarán las páginas de un comic a partir de textos que narren la historia. La idea de utilizar CLIP para guiar la generación de imágenes ha sido ya explorada por parte de la comunidad de ML/IA y está dando pie a una nueva ola de arte generada mediante IA, en la que el artista “crea” descripciones textuales ingeniosas que se utilizan para dirigir el modelo generativo y brindar un resultado artísticamente atractivo. Dada la misma descripción textual, la imagen resultante depende de qué tipo de conocimiento visual y qué asociaciones entre imagen y texto han aprendido el modelo generativo y CLIP. El objetivo de este TFG es entrenar un modelo generativo utilizando un dataset de imágenes de comics para habilitar la ilustración guiada por CLIP de comics. Además, debería proporcionar una demostración visual de que este entrenamiento personalizado habilita la creación de ilustraciones más adecuadas que aquellas que se pueden obtener de modelos disponibles en la comunidad entrenados con datasets estándar, tales como ImageNet.
Los modelos generativos aprenden a describir un dataset como una colección de muestras aleatorias extraídas de una distribución de probabilidad de alta dimensionalidad. Una tarea generativa se consigue a partir de tomar nuevas muestras, como imágenes o texto, que no existen en el conjunto de entrenamiento pero que mantienen las características generales, tales como la coherencia y el realismo, de los datos originales. En los años recientes hemos presenciado avances notables en este campo, especialmente relacionados con imagen realista (GANs, VAEs, modelos de difusión) y el modelado de lenguaje natural (GPT, BERT). Modelos de lenguaje grandes como GPT-3 han sido utilizados también para la creación de CLIP, un modelo que es capaz de anotar imágenes automáticamente con texto autogenerado. En este TFG, se propone utilizar CLIP para dirigir un modelo generativo de imágenes naturales que ilustrarán las páginas de un comic a partir de textos que narren la historia. La idea de utilizar CLIP para guiar la generación de imágenes ha sido ya explorada por parte de la comunidad de ML/IA y está dando pie a una nueva ola de arte generada mediante IA, en la que el artista “crea” descripciones textuales ingeniosas que se utilizan para dirigir el modelo generativo y brindar un resultado artísticamente atractivo. Dada la misma descripción textual, la imagen resultante depende de qué tipo de conocimiento visual y qué asociaciones entre imagen y texto han aprendido el modelo generativo y CLIP. El objetivo de este TFG es entrenar un modelo generativo utilizando un dataset de imágenes de comics para habilitar la ilustración guiada por CLIP de comics. Además, debería proporcionar una demostración visual de que este entrenamiento personalizado habilita la creación de ilustraciones más adecuadas que aquellas que se pueden obtener de modelos disponibles en la comunidad entrenados con datasets estándar, tales como ImageNet.
Colecciones
- Trabajos Fin de Grado [2023]