Segmentación textual

Fernando Chicharro Esteban

Resumen


Segmentación textual
Text segmentation

Resumen: Una de las metodologías de investigación para identificar los mecanismos lingüísticos que representan la progresión temática es dividir en partes un texto o segmentarlo. Desde 1980, se han presentado dos clases de propuestas: los modelos probabilísticos y los jerárquicos, que se analizan y se comparan en este trabajo. También, se propone, a partir de los datos extraídos de los experimentos realizados, que los modelos probabilísticos, que emplean criterios de segmentación como la frecuencia y la distribución léxicas, no ofrecen resultados tan satisfactorios como los modelos jerárquicos, que ofrecen criterios para reconocer las intenciones comunicativas que un emisor puede desarrollar en un texto; existe un nivel de segmentación intraoracional (empaquetamiento informativo); y los modelos probabilísticos no ofrecen datos esclarecedores para identificar un segmento escrito en otra lengua.
Palabras clave: probabilístico, jerárquico, TextTiling, Focus stack, Centering.

Abstract: One of the methodologies to identify thematic continuity is to divide in parts a text or to segment it. From 1980, two classes of proposals have been proposed: the probabilistic models and the hierarchic ones, that are analyzed and compared in this paper. Also, one sets out, from the experiments, that the probabilistic models, that use the lexical frequency and the distribution, do not offer as satisfactory results as the hierarchic models, that offer criteria to recognize the communicative intentions; an intraorational level of segmentation (informative packing); and the probabilistic models do not offer enlightening data to language identification.
Key words: probabilistic, hierarchic, TextTiling, Focus stack, Centering

Texto completo:

PDF