Extracción automática de colocaciones terminológicas en un corpus extenso de lengua general

Octavio Santana Suárez , José Pérez Aguiar , Isabel Sánchez Berriel , Virginia Gutiérrez Rodríguez

Resumen


Los sistemas automáticos de extracción de términos constituyen una herramienta fundamental cuando se afronta la tarea de compilación del léxico restringido a un campo de especialidad. Los análisis textuales llevados a cabo por este tipo de software deben incorporar estrategias que permitan detectar las colocaciones en la especialidad que se trabaje. En este trabajo se estudia la viabilidad del uso de corpus textuales extensos, sin información lingüística, como sucede con los que se pueden compilar a través de Internet, como fuente de información para la recopilación de colocaciones terminológicas. Con este propósito se analiza el comportamiento de distintos indicadores basados en las frecuencias registradas para una colección de términos económicos en un corpus del español de 300 000 000 palabras.

Texto completo:

PDF