Uso de la detección de bigramas para categorización de texto en un dominio científico

Arturo Montejo Ráez , José Manuel Perea Ortega , María Teresa Martín Valdivia , L. Alfonso Ureña López

Resumen


En este artículo se presentan una serie de experimentos aplicando la técnica de detección de multi-palabras para categorización de texto en un dominio científico. Para ello, se ha utilizado parte de la colección de artículos científicos de Física de Altas Energías (HEP) proporcionada por el Laboratorio Europeo de Física de Partículas (CERN). Los algoritmos de aprendizaje supervisado empleados para la experimentación han sido Rocchio y PLAUM. La técnica de detección de multi-palabras utilizada se ha limitado a secuencias fijas de dos términos como máximo, es decir, lo que se conoce como bigramas. El objetivo de este trabajo ha sido comprobar si el uso de bigramas frecuentes como términos característicos puede ser una mejora para la tarea de categorización de textos en este dominio específico, llegando a la conclusión de que la detección de multi-palabras no merece la pena ser usada para esta tarea en el dominio HEP.

Texto completo:

PDF