Categorización semi-supervisada de documentos usando la Web como corpus

Rafael Guzman Cabrera

Resumen


Tesis doctoral en reconocimiento de formas e inteligencia artificial realizada en la Universidad Politécnica de Valencia por Rafael Guzmán Cabrera bajo la dirección de los doctores Paolo Rosso y Manuel Montes y Gómez (INAOE, México). La defensa de la tesis tuvo lugar el 24 de noviembre ante el tribunal formado por los doctores Manuel Palomar Sanz (Universidad de Alicante), Paloma Martínez Fernández (Universidad Carlos III de Madrid), Luis Villaseñor Pineda (INAOE, México), Grigori Sidorov (Instituto Politécnico Nacional, México) y Antonio Molina Marco (Universidad Politécnica de Valencia). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad.

La mayoría de los métodos para la categorización automática de documentos están basados en técnicas de aprendizaje supervisado y, por consecuencia, tienen el problema de requerir un gran número de instancias de entrenamiento. Con la finalidad de afrontar este problema, en esta tesis se propone un nuevo método semi-supervisado para la categorización de documentos, el cual considera la extracción automática de ejemplos no etiquetados de la Web y su incorporación al conjunto de entrenamiento. los resultados obtenidos permiten ver la efectividad del metodo desarrollado.

Texto completo:

PDF