Expansión fonética de la consulta para la recuperación de información en documentos hablados

Alejandro Reyes Barragán, Luis Villase˜nor-Pineda, Manuel Montes y Gómez

Resumen


El enfoque tradicional para la búsqueda de información en grandes colecciones de documentos hablados consiste en integrar métodos de reconocimiento automático del habla (RAH) y técnicas de recuperación de información (RI) usadas para texto escrito. Una desventaja de este enfoque es su dependencia a la precisión del sistema de RAH, pues los errores generados por éste impactan fuertemente en la máquina de RI. Con el objetivo de reducir el impacto de los errores de transcripción, especialmente los de sustitución, en este trabajo se propone expandir las consultas con palabras fonéticamente similares y con ello ampliar las posibilidades de emparejar las palabras mal transcritas en los documentos. Los resultados alcanzados en dos colecciones de documentos hablados con características muy disímiles demuestran la pertinencia del método propuesto, el cual logró mejorar el MAP respecto a una expansión tradicional hasta en un 3.68%.

Texto completo:

PDF