Tectogrammar-based machine translation for English-Spanish and English-Basque

Nora Aranberri, Gorka Labaka, Oneka Jauregi, Arantza Díaz de Ilarraza, Iñaki Alegria, Eneko Agirre

Resumen


La ironía verbal es un fenómeno lingüístico en donde el significado expresado es el opuesto al significado literal del mensaje. Es un reto para el Procesamiento de Lenguaje Natural ya que se debe enseñar a un sistema una forma de reconocer y procesar el cambio de polaridad de lo expresado. Aún cuando han habido esfuerzos recientes en la identificación de ironía y sarcasmo, ninguno de estos aborda el problema en español. En este trabajo nos enfocamos en establecer un sistema base de clasificación usando características simples al nivel de palabras y carácteres para entradas en español de la red social Twitter. Presentamos sistemas basados en máquinas de soporte vectorial y selvas aleatorias usando n-gramas, así como un enfoque distribucional (i.e., word2vec).Presentamos los primeros sistemas de traducción automática para inglés-español e inglés-euskara basados en tectogramática. A partir del modelo ya existente inglés-checo, describimos las herramientas para el análisis y síntesis, y los recursos para la trasferencia. La evaluación muestra el potencial de estos sistemas para adaptarse a nuevas lenguas y dominios.

Texto completo:

PDF