Mapas visuales semánticos de genes basados en embeddings generados mediante modelos de lenguaje
Autor(es) y otros:
Director(es):
Fecha de publicación:
Serie:
Grado en Ingeniería Informática del Software
Descripción física:
Resumen:
Los recientes avances en modelos de lenguaje basados en arquitecturas de Transformers permiten generar representaciones vectoriales (embeddings) semánticamente significativas para textos de longitud variable. Al aplicar técnicas de reducción de dimensionalidad no lineal sobre estos embeddings, es posible obtener proyecciones de baja dimensionalidad que revelan estructuras latentes subyacentes. Este trabajo explora el potencial de esta idea para elaborar mapas visuales 2D semánticamente significativos de los más de 20.000 genes humanos codificantes, utilizando como input las descripciones textuales disponibles sobre la funcionalidad bioquímica y biomédica de cada gen. Se generarán embeddings de estas descripciones mediante distintos modelos pre-entrenados de pequeño tamaño y se aplicarán técnicas de reducción de dimensionalidad para obtener mapas visuales 2D que capturen las relaciones funcionales entre genes. Se implementará una interfaz interactiva que permita navegar y explorar visualmente estos mapas. Se discutirán las capacidades de estos mapas para facilitar el análisis e interpretación de la información funcional masiva disponible sobre el genoma humano. Finalmente, se validará la utilidad de esta aproximación, presentando los mapas a investigadores biomédicos y recabando su feedback sobre el potencial de esta idea como herramienta de análisis genómico. El trabajo conllevará asimismo un estudio de la literatura científica que permita enmarcar las ideas y los resultados en el estado actual de la técnica.
Los recientes avances en modelos de lenguaje basados en arquitecturas de Transformers permiten generar representaciones vectoriales (embeddings) semánticamente significativas para textos de longitud variable. Al aplicar técnicas de reducción de dimensionalidad no lineal sobre estos embeddings, es posible obtener proyecciones de baja dimensionalidad que revelan estructuras latentes subyacentes. Este trabajo explora el potencial de esta idea para elaborar mapas visuales 2D semánticamente significativos de los más de 20.000 genes humanos codificantes, utilizando como input las descripciones textuales disponibles sobre la funcionalidad bioquímica y biomédica de cada gen. Se generarán embeddings de estas descripciones mediante distintos modelos pre-entrenados de pequeño tamaño y se aplicarán técnicas de reducción de dimensionalidad para obtener mapas visuales 2D que capturen las relaciones funcionales entre genes. Se implementará una interfaz interactiva que permita navegar y explorar visualmente estos mapas. Se discutirán las capacidades de estos mapas para facilitar el análisis e interpretación de la información funcional masiva disponible sobre el genoma humano. Finalmente, se validará la utilidad de esta aproximación, presentando los mapas a investigadores biomédicos y recabando su feedback sobre el potencial de esta idea como herramienta de análisis genómico. El trabajo conllevará asimismo un estudio de la literatura científica que permita enmarcar las ideas y los resultados en el estado actual de la técnica.
Colecciones
- Trabajos Fin de Grado [2018]