Machine learning algorithms and experimentation methods applied to sample quantification
Other title:
Algoritmos de aprendizaje automático y métodos de experimentación aplicados a la cuantificación de muestras
Author:
Director:
Centro/Departamento/Otros:
Subject:
Inteligencia artificial
Análisis de datos
Estadística
Publication date:
Editorial:
Universidad de Oviedo
Descripción física:
Abstract:
Existe una creciente demanda de métodos eficientemente rentables para la estimación de la distribución de las clases en una muestra de individuos. Una tarea de aprendizaje automático recientemente formalizada como cuantificación. Su principal objetivo es la estimación precisa del número de casos positivos (o distribución de clases) en un conjunto de evaluación, empleando un conjunto de entrenamiento que puede tener una distribución sustancialmente distinta. Tras analizar la superficie del problema, la conclusión directa podría ser que cuantificar la proporciones de las clases en una muestra es tan simple como contar las predicciones de un clasificador estándar. Sin embargo, debido a los cambios de distribución que ocurren de forma natural en los problemas del mundo real esta solución suele ser poco efectiva, dado que las diferencias de distribución entre los conjuntos de entrenamiento y evaluación pueden tener un gran impacto negativo en la efectividad de clasificadores de vanguardia. La suposición general que suelen establecer los métodos de clasificación es que las muestras son representativas, lo cual implica que las densidades intra-clases, Pr(x|y), y la distribución a priori de las clases, Pr(y), son invariables. Obviamente, la segunda parte no se cumple para cuantificación, dado que por definición su objetivo es estimar Pr(y). En esta tesis se estudia este problemática y el trabajo relacionado con cuantificación bajo condiciones de prior-shift, en donde sólo las densidades intra-clases se consideran constates. Esta tesis propone tres contribuciones principales: (1) se presenta el primer estudio de investigación que formaliza una metodología específica para realizar comparativas estadísticas de varios cuantificadores evaluados sobre múltiples prevalencias; (2) se validan dos estrategias sencillas y computacionalmente rentables de ponderación por pesos aplicadas a algoritmos del vecino más cercano, las cuales resultan competitivas empíricamente; y (3) se implementa el primer método de aprendizaje que optimiza una métrica de cuantificación, proponiendo una nueva familia de funciones de pérdida parametrizables, capaces de balancear medidas de cuantificación y clasificación simultáneamente. La contribución principal de la metodología propuesta es que nos permite analizar propiedades relevantes de estas comparativas desde un punto de vista estadístico, a la vez que ofrece indicadores sobre qué algoritmos son significativamente mejores. En comparación con la validación-cruzada estándar y los tests estadísticos relacionados, la validación de cuantificadores requiere medir su eficacia sobre un gran abanico de conjuntos de evaluación con diferentes distribuciones de clases. Este es el motivo por el que las comparativas estadísticas de clasificadores no son aplicables directamente. La segunda contribución ofrece un nuevo método de base para resolver problemas de cuantificación binaria, basado en algoritmos del vecino más próximo (NN). Se presentan dos estrategias sencillas y computacionalmente rentables de ponderación por pesos, que destacan entre modelos de cuantificación recientes. Las conclusiones extraídas de los test estadísticos de Nemenyi muestran que nuestras propuestas son las únicas de entre las estudiadas que ofrecen diferencias significativas con respecto a modelos menos robustos, como son CC, AC o T50; los cuales están considerados como enfoques vanguardistas por la mayoría de autores. Nuestra última contribución está relacionada con el hecho de que los modelos actuales de cuantificación se basan en clasificadores, presentando la problemática de que son entrenados con una función de pérdida enfocada a clasificación, en lugar de a cuantificación. Otros intentos recientes de abordar este problema sufren ciertas limitaciones en cuanto a fiabilidad. Por lo que presentamos un método de aprendizaje que optimiza un métrica basada en estimación sobre muestras completas, combinando medidas de cuantificación y clasificación simultáneamente. Nuestra propuesta ofrece un nuevo enfoque que permite construir cuantificadores binarios que son capaces de estimar la proporción de positivos de forma precisa, basados a su vez en modelos con habilidades de clasificación fiables. En el último capítulo se analizan las conclusiones principales, presentando directrices para futuras investigaciones; incluyendo la optimización de modelos de base que minimice la varianza durante la calibración de sus umbrales de decisión y el análisis empírico de la potencia y estabilidad de test estadísticos aplicados en experimentos de cuantificación.
Existe una creciente demanda de métodos eficientemente rentables para la estimación de la distribución de las clases en una muestra de individuos. Una tarea de aprendizaje automático recientemente formalizada como cuantificación. Su principal objetivo es la estimación precisa del número de casos positivos (o distribución de clases) en un conjunto de evaluación, empleando un conjunto de entrenamiento que puede tener una distribución sustancialmente distinta. Tras analizar la superficie del problema, la conclusión directa podría ser que cuantificar la proporciones de las clases en una muestra es tan simple como contar las predicciones de un clasificador estándar. Sin embargo, debido a los cambios de distribución que ocurren de forma natural en los problemas del mundo real esta solución suele ser poco efectiva, dado que las diferencias de distribución entre los conjuntos de entrenamiento y evaluación pueden tener un gran impacto negativo en la efectividad de clasificadores de vanguardia. La suposición general que suelen establecer los métodos de clasificación es que las muestras son representativas, lo cual implica que las densidades intra-clases, Pr(x|y), y la distribución a priori de las clases, Pr(y), son invariables. Obviamente, la segunda parte no se cumple para cuantificación, dado que por definición su objetivo es estimar Pr(y). En esta tesis se estudia este problemática y el trabajo relacionado con cuantificación bajo condiciones de prior-shift, en donde sólo las densidades intra-clases se consideran constates. Esta tesis propone tres contribuciones principales: (1) se presenta el primer estudio de investigación que formaliza una metodología específica para realizar comparativas estadísticas de varios cuantificadores evaluados sobre múltiples prevalencias; (2) se validan dos estrategias sencillas y computacionalmente rentables de ponderación por pesos aplicadas a algoritmos del vecino más cercano, las cuales resultan competitivas empíricamente; y (3) se implementa el primer método de aprendizaje que optimiza una métrica de cuantificación, proponiendo una nueva familia de funciones de pérdida parametrizables, capaces de balancear medidas de cuantificación y clasificación simultáneamente. La contribución principal de la metodología propuesta es que nos permite analizar propiedades relevantes de estas comparativas desde un punto de vista estadístico, a la vez que ofrece indicadores sobre qué algoritmos son significativamente mejores. En comparación con la validación-cruzada estándar y los tests estadísticos relacionados, la validación de cuantificadores requiere medir su eficacia sobre un gran abanico de conjuntos de evaluación con diferentes distribuciones de clases. Este es el motivo por el que las comparativas estadísticas de clasificadores no son aplicables directamente. La segunda contribución ofrece un nuevo método de base para resolver problemas de cuantificación binaria, basado en algoritmos del vecino más próximo (NN). Se presentan dos estrategias sencillas y computacionalmente rentables de ponderación por pesos, que destacan entre modelos de cuantificación recientes. Las conclusiones extraídas de los test estadísticos de Nemenyi muestran que nuestras propuestas son las únicas de entre las estudiadas que ofrecen diferencias significativas con respecto a modelos menos robustos, como son CC, AC o T50; los cuales están considerados como enfoques vanguardistas por la mayoría de autores. Nuestra última contribución está relacionada con el hecho de que los modelos actuales de cuantificación se basan en clasificadores, presentando la problemática de que son entrenados con una función de pérdida enfocada a clasificación, en lugar de a cuantificación. Otros intentos recientes de abordar este problema sufren ciertas limitaciones en cuanto a fiabilidad. Por lo que presentamos un método de aprendizaje que optimiza un métrica basada en estimación sobre muestras completas, combinando medidas de cuantificación y clasificación simultáneamente. Nuestra propuesta ofrece un nuevo enfoque que permite construir cuantificadores binarios que son capaces de estimar la proporción de positivos de forma precisa, basados a su vez en modelos con habilidades de clasificación fiables. En el último capítulo se analizan las conclusiones principales, presentando directrices para futuras investigaciones; incluyendo la optimización de modelos de base que minimice la varianza durante la calibración de sus umbrales de decisión y el análisis empírico de la potencia y estabilidad de test estadísticos aplicados en experimentos de cuantificación.
Local Notes:
DT(SE) 2014-019
Collections
- Tesis [7571]
- Tesis doctorales a texto completo [2066]