Comparación de Tres Modelos de Texto para la Generación Automática de Resúmenes

Romyana Montiel Soto, René Arnulfo García-Hernández

Resumen


Uno de los principales problemas en la generación automática de resúmenes de texto consiste en identificar, independientemente del idioma y dominio, la información más importante en el documento origen. Para este problema, una gran cantidad de trabajos han aplicado el modelo espacio-vectorial basado en n-gramas (secuencias de palabras de tamaño fijo). Una alternativa al modelo de n-gramas es emplear solo las Secuencias de palabras que son Frecuentes y además Maximales (SFM's), las cuales permiten disminuir la dimensionalidad del modelo, a la vez que brindan información más relevante, puesto que el tamaño de cada SFM no es determinado previamente como sucede con n-gramas. Este artículo presenta un estudio comparativo de estos modelos de textos para la generación automática de resúmenes extractivos con 567 documentos, empleando un algoritmo de aprendizaje no supervisado.

Texto completo:

PDF PDF (English)