Preservando la Identidad en el Habla: Transcripción Anonimizada para el Contexto Colombiano

Andrea Juliana Parra Ariza, Hoover Rueda-Chacón

Resumen


El habla ha motivado el desarrollo de modelos de Reconocimiento Automático del Habla (ASR, del inglés Automatic Speech Recognition) como Whisper, capaces de convertir el habla en texto escrito. Sin embargo, estos modelos requieren grandes volúmenes de datos (corpus), lo que limita su desempeño en idiomas o variantes con recursos limitados, como el español de Colombia, cuyos acentos y regionalismos están poco representados. Asimismo, el uso de grabaciones suele incluir información sensible, como nombres o identificaciones, que dificulta la recopilación e intercambio de estos corpus. Este trabajo propone desarrollar un modelo basado en la arquitectura de Whisper y el flujo de trabajo de WhisperX para la transcripción de voz anonimizada en el español colombiano, con anotación temporal y diarización de hablantes. Con modelos que alcanzan un 7,60% de error de transcripción a nivel de palabra (WER), un F1-score de 60,81% para reconocimiento de entidades y un F1-score de 76,10% en anonimización, se aporta al cierre de la brecha entre los modelos existentes y los dialectos colombianos, garantizando un desempeño robusto incluso en entornos con datos escasos.

Texto completo:

PDF