Hacia una anotación de dependencias enriquecida de corpus españoles

Simon Mille, Alicia Burga, Vanesa Vidal, Leo Wanner

Resumen


En este artículo presentamos una estrategia de bajo coste para la creación de un corpus de estructuras sintácticas (tanto superficiales como profundas) y semánticas, tal y como son definidas en la Teoría Sentido-Texto. El corpus es de tamaño medio, pero muy preciso y detallado. La estrategia parte de un pequeño corpus de dependencias, el corpus AnCora, cuya anotación es mucho menos detallada que la nuestra. Mostramos que la discrepancia entre ambas anotaciones se puede salvar en gran medida a través de medios automáticos, lo cual permite que los recursos necesarios se desarrollen en poco tiempo y con un esfuerzo humano limitado. Asimismo, proponemos una evaluación preliminar de la cantidad de trabajo requerido en términos reales en el proceso de anotación.

Texto completo:

PDF (English) PDF