Ajuste y evaluacíon del modelo DialoGPT sobre distintas colecciones de subtítulos de películas y series de televisión

Raúl Giménez de Dios, Isabel Segura-Bedmar

Resumen


Las nuevas plataformas de streaming han generado una proliferación de películas y series, la mayoría de ellas subtituladas. Esta proliferación proporciona una ingente cantidad de textos conversacionales, menos formales, más interactivos, que reflejan mejor la comunicación entre seres humanos. La mayorí de los modelos transformers desarrollados hasta la fecha no han sido entrenados con textos conversacionales. En este artículo, DialoGPT, un modelo GPT-2 entrenado para la tarea de díalogo sobre una colección de mensajes de Reddit, es re-entrenado y evaluado sobre distintas colecciones de subtítulos en inglés de series populares. Los experimentos muestran que DialoGPT es obtiene buenos resultados, y que el uso de los subtítulos y diálogos de películas y series es un excelente recurso para el desarrollo de chatbots.

Texto completo:

PDF