Comparación de Tres Modelos de Texto para la Generación Automática de Resúmenes
Resumen
Uno de los principales problemas en la generación automática de resúmenes de texto consiste en identificar, independientemente del idioma y dominio, la información más importante en el documento origen. Para este problema, una gran cantidad de trabajos han aplicado el modelo espacio-vectorial basado en n-gramas (secuencias de palabras de tamaño fijo). Una alternativa al modelo de n-gramas es emplear solo las Secuencias de palabras que son Frecuentes y además Maximales (SFM's), las cuales permiten disminuir la dimensionalidad del modelo, a la vez que brindan información más relevante, puesto que el tamaño de cada SFM no es determinado previamente como sucede con n-gramas. Este artículo presenta un estudio comparativo de estos modelos de textos para la generación automática de resúmenes extractivos con 567 documentos, empleando un algoritmo de aprendizaje no supervisado.