Selección y evaluación de algoritmos para clasificación de documentos
Author:
Director:
Subject:
Clasificación
Publication date:
Serie:
Máster Universitario en Ingeniería Informática
Descripción física:
Abstract:
Este trabajo ha consistido en un estudio sobre la clasificación de documentos en castellano, basándose en el estándar IPTC. Para ello se ha utilizado un conjunto de ejemplos formado por documentos previamente etiquetados. Partiendo de los distintos tipos de aprendizaje, los algoritmos de clasificación, las herramientas de las que se disponía para la clasificación y las características de conjunto de ejemplos, se decidió utilizar las librerías proporcionadas por las herramientas Mahout, Hadoop, Lucene y Tika (pertenecientes a Apache Software Foundation). El algoritmo que mejor se ajustaba al problema propuesto fue el algoritmo de regresión lineal, método del gradiente descendente estocástico. Sobre este algoritmo se realizaron distintas pruebas de clasificación con distintos conjuntos de ejemplos, se analizaron los resultados de la clasificación. Con el conjunto de ejemplos que proporciono mejores resultados en la clasificación y posterior evaluación, se creo un modelo, utilizado posteriormente para la implementación de una aplicación de clasificación de artículos de prensa. Esta aplicación obtiene los artículos contenidos en los Feed de noticias de distintos medios generalistas disponibles, seguidamente, y con ayuda del modelo seleccionado, clasifica los artículos y los muestra al usuario ordenados por las distintas categorías encontradas basándose en el estándar IPTC.
Este trabajo ha consistido en un estudio sobre la clasificación de documentos en castellano, basándose en el estándar IPTC. Para ello se ha utilizado un conjunto de ejemplos formado por documentos previamente etiquetados. Partiendo de los distintos tipos de aprendizaje, los algoritmos de clasificación, las herramientas de las que se disponía para la clasificación y las características de conjunto de ejemplos, se decidió utilizar las librerías proporcionadas por las herramientas Mahout, Hadoop, Lucene y Tika (pertenecientes a Apache Software Foundation). El algoritmo que mejor se ajustaba al problema propuesto fue el algoritmo de regresión lineal, método del gradiente descendente estocástico. Sobre este algoritmo se realizaron distintas pruebas de clasificación con distintos conjuntos de ejemplos, se analizaron los resultados de la clasificación. Con el conjunto de ejemplos que proporciono mejores resultados en la clasificación y posterior evaluación, se creo un modelo, utilizado posteriormente para la implementación de una aplicación de clasificación de artículos de prensa. Esta aplicación obtiene los artículos contenidos en los Feed de noticias de distintos medios generalistas disponibles, seguidamente, y con ayuda del modelo seleccionado, clasifica los artículos y los muestra al usuario ordenados por las distintas categorías encontradas basándose en el estándar IPTC.
Collections
- Trabajos Fin de Máster [5283]
Files in this item
