Bitextor, un cosechador automático de memorias de traducción a partir de sitios web multilingües

Miquel Esplà

Resumen


Bitextor es una aplicación que tiene como objetivo la generación de memorias de traducción utilizando sitios web multilingües como fuente de corpus. La aplicación descarga y preprocesa todos los ficheros HTML de un sitio web. Después aplica una serie de heurísticas (principalmente basadas en al estructura de etiquetas HTML y la longitud de los bloques de texto) mediante las cuales es capaz de emparejar los textos paralelos y generar memorias de traducción en formato TMX mediante el uso de la librería LibTagAligner.

Texto completo:

PDF PDF (English)