Clustering Iterativo de Textos Cortos con Representaciones basadas en Conceptos

Diego A. Ingaramo , María V. Rosas , Marcelo L. Errecalde , Paolo Rosso

Resumen


La tendencia actual a trabajar con documentos cortos (blogs, mensajes
de textos, y otros), ha generado un interés creciente en las técnicas de procesamiento automáticas de documentos con estas características. En este contexto, el clustering (agrupamiento) de textos cortos es un área muy importante de investigación, que puede jugar un rol fundamental en organizar estos grandes volúmenes de textos cortos, en un número pequeño de grupos significativos. Recientemente, el uso de métodos de clustering bio-inspirados iterativos, ha producido resultados muy interesantes utilizando representaciones de vector de términos clásicas. En este trabajo, extendemos este enfoque utilizando representaciones de documentos enriquecidas con información semántica (conceptos) obtenida con métodos de desambiguación basados en conocimiento. Los resultados experimentales, permiten concluir que el
enfoque de clustering iterativo utilizado puede verse beneficiado significativamente con la incorporación de información semántica en la representación de documentos, mostrando un desempeño superior al exhibido por varios de los métodos de clustering más difundidos en el área, en la mayoría de las instancias experimentales.

Texto completo:

PDF