Music similarity based on the joint use of Discret Riemann metrics and Immune Artificial Systems
Otros títulos:
Similitud musical mediante el uso conjunto de métricas riemanniana y sistemas inmunológicos artificiales
Autor(es) y otros:
Director(es):
Centro/Departamento/Otros:
Palabra(s) clave:
Tecnologías de la información y comunicaciones en redes móviles
Radiodifusión sonido y televisión
Inteligencia artificial
Geometría de Riemann
Fecha de publicación:
Descripción física:
Resumen:
Esta tesis doctoral describe el estado actual de la recomendación musical mediante técnicas de inteligencia artificial y propone una solución basada en la combinación de dos algoritmos: el primero realiza una estimación local de la métrica curva y el segundo se basa en la aplicación de técnicas de inmunología artificial. El objetivo de la recomendación musical es localizar canciones similares a una canción de referencia mediante el uso exclusivo de análisis de audio. Las posibles canciones similares se deben escoger de una colección que puede superar los 100 millones de canciones. Todas las canciones de la colección se analizan para obtener una extensa lista de características musicales que las describen. Se trata de transformar los 4MBytes que de media ocupa una canción codificada en formato MP3 en un vector de datos reducido que preserve la información de manera que no se limite la capacidad de realizar medidas de similitud. El algoritmo propuesto imita las cuatro capas del sistema inmunológico humano. En la primera capa, se reduce la calidad de las canciones para incrementar la robusteza de algoritmo en relación a cambios en los métodos de compresión y frecuencias de muestreo. Posteriormente, las canciones se organizan en clústeres y se les aplica el análisis de componentes principales (PCA) para reducir la dimensión del conjunto de datos. Únicamente las canciones que canciones localizadas en clústeres estadísticamente cercanos a la canción de referencia, pueden pasar a las segunda capa. La segunda capa utiliza una base de datos de entrenamiento supervisada con pares de canciones similares y pares de canciones diferentes. El algoritmo identifica en qué parte del espacio reducido se encuentra y busca los pares de entrenamiento más cercano utilizando la distancia Euclídea de la capa anterior. A partir de este punto y de manera iterativa, aplica un método de estimación del a métrica Riemanniana (curva) para minimizar los errores de recomendación en la base de entrenamiento. Cuando el algoritmo converge, normaliza la métrica para que las canciones similares sean aquellas que la distancia en la métrica curva sea inferior a 1. Sólo las canciones disponibles en la segunda capa que cumplan esta condición pasan a la tercera capa. En la tercera capa se aplica el método de inmunología artificial que imita el sistema de protección inmune innato. El sistema inmunitario (SI) protege al organismo de una amplia variedad de agentes infecciosos (bacterias, hongos, parásitos y virus) que pueden ocasionar en el organismo que los recibe diferentes enfermedades. Para ello es capaz de reconocer a los componentes del agente patógeno e iniciar una serie de respuestas encaminadas a eliminarlo. Se entiende como antígeno cualquier molécula que puede ser reconocida específicamente por cualquiera de los componentes del SI. Desde un punto de vista musical, las canciones se dividen en segmentos de 50ms (llamados mili-sonidos). Cada mili-sonido de la canción de referencia se trata como si fuese un patógeno y se compara contra todas canciones que habían pasado a la tercera capa. El objetivo es cribar los candidatos de la segunda fase tengan menos mili-sonidos parecidos con la canción de referencia. En la última capa, los mili-sonidos de la canción de referencia actúan como antígenos de selección negativa contra una base de datos inmensa de mili-sonidos de diferentes géneros y subgéneros musicales. Las canciones candidatas son analizadas contra la misma base de datos de géneros y se descartan las que tienen una estimación de géneros diferente de la canción de referencia. De esta manera se consigue reducir al máximo el número de canciones diferentes que son presentadas al usuario como canciones similares. El método que se presenta en esta tesis doctoral consigue una probabilidad de clasificación correcta de alrededor de un 80%, lo que supone un incremento de un 15% respecto a los métodos que únicamente utilizan la primera capa. En el último capítulo se describe un algoritmo que propaga el éxito de una canción a canciones similares manteniendo una distribución de tipo Long-Tail. Este método se utiliza finalmente para construir un sistema de radio musical automatizado en el que el usuario escoge una canción origen y una canción final. El algoritmo calcula en tiempo real una propuesta de lista de reproducción mediante el uso de las cuatro capas descritas anteriormente y aprende cuando el usuario informa al sistema del grado de satisfacción de las recomendaciones realizadas.
Esta tesis doctoral describe el estado actual de la recomendación musical mediante técnicas de inteligencia artificial y propone una solución basada en la combinación de dos algoritmos: el primero realiza una estimación local de la métrica curva y el segundo se basa en la aplicación de técnicas de inmunología artificial. El objetivo de la recomendación musical es localizar canciones similares a una canción de referencia mediante el uso exclusivo de análisis de audio. Las posibles canciones similares se deben escoger de una colección que puede superar los 100 millones de canciones. Todas las canciones de la colección se analizan para obtener una extensa lista de características musicales que las describen. Se trata de transformar los 4MBytes que de media ocupa una canción codificada en formato MP3 en un vector de datos reducido que preserve la información de manera que no se limite la capacidad de realizar medidas de similitud. El algoritmo propuesto imita las cuatro capas del sistema inmunológico humano. En la primera capa, se reduce la calidad de las canciones para incrementar la robusteza de algoritmo en relación a cambios en los métodos de compresión y frecuencias de muestreo. Posteriormente, las canciones se organizan en clústeres y se les aplica el análisis de componentes principales (PCA) para reducir la dimensión del conjunto de datos. Únicamente las canciones que canciones localizadas en clústeres estadísticamente cercanos a la canción de referencia, pueden pasar a las segunda capa. La segunda capa utiliza una base de datos de entrenamiento supervisada con pares de canciones similares y pares de canciones diferentes. El algoritmo identifica en qué parte del espacio reducido se encuentra y busca los pares de entrenamiento más cercano utilizando la distancia Euclídea de la capa anterior. A partir de este punto y de manera iterativa, aplica un método de estimación del a métrica Riemanniana (curva) para minimizar los errores de recomendación en la base de entrenamiento. Cuando el algoritmo converge, normaliza la métrica para que las canciones similares sean aquellas que la distancia en la métrica curva sea inferior a 1. Sólo las canciones disponibles en la segunda capa que cumplan esta condición pasan a la tercera capa. En la tercera capa se aplica el método de inmunología artificial que imita el sistema de protección inmune innato. El sistema inmunitario (SI) protege al organismo de una amplia variedad de agentes infecciosos (bacterias, hongos, parásitos y virus) que pueden ocasionar en el organismo que los recibe diferentes enfermedades. Para ello es capaz de reconocer a los componentes del agente patógeno e iniciar una serie de respuestas encaminadas a eliminarlo. Se entiende como antígeno cualquier molécula que puede ser reconocida específicamente por cualquiera de los componentes del SI. Desde un punto de vista musical, las canciones se dividen en segmentos de 50ms (llamados mili-sonidos). Cada mili-sonido de la canción de referencia se trata como si fuese un patógeno y se compara contra todas canciones que habían pasado a la tercera capa. El objetivo es cribar los candidatos de la segunda fase tengan menos mili-sonidos parecidos con la canción de referencia. En la última capa, los mili-sonidos de la canción de referencia actúan como antígenos de selección negativa contra una base de datos inmensa de mili-sonidos de diferentes géneros y subgéneros musicales. Las canciones candidatas son analizadas contra la misma base de datos de géneros y se descartan las que tienen una estimación de géneros diferente de la canción de referencia. De esta manera se consigue reducir al máximo el número de canciones diferentes que son presentadas al usuario como canciones similares. El método que se presenta en esta tesis doctoral consigue una probabilidad de clasificación correcta de alrededor de un 80%, lo que supone un incremento de un 15% respecto a los métodos que únicamente utilizan la primera capa. En el último capítulo se describe un algoritmo que propaga el éxito de una canción a canciones similares manteniendo una distribución de tipo Long-Tail. Este método se utiliza finalmente para construir un sistema de radio musical automatizado en el que el usuario escoge una canción origen y una canción final. El algoritmo calcula en tiempo real una propuesta de lista de reproducción mediante el uso de las cuatro capas descritas anteriormente y aprende cuando el usuario informa al sistema del grado de satisfacción de las recomendaciones realizadas.
Notas Locales:
DT(SE) 2015-186
Colecciones
- Tesis [7596]
- Tesis doctorales a texto completo [2084]