Reconocimiento y clasificación de entidades nombradas en textos legalesen español

Doaa Samy

Resumen


El reconocimiento y la clasificación de las entidades nombradas (NER/NERC) es una tarea principal en las áreas del Procesamiento del Lenguaje Natural (PLN) y la Extracción de la Información. El papel de NERC en el dominio legal es imprescindible en el desarrollo de sistemas legales inteligentes. El presente trabajo pretende dar un primer paso hacia establecer un "baseline" para la tarea NERC en el español jurídico. El objetivo principal consiste en proporcionar un recurso lingüístico anotando cinco tipos básicos de entidades nombradas en los textos legislativos en español peninsular. Los cinco tipos de entidades nombradas son: Personas, Organizaciones, Lugares, Fechas absolutas y Referencias a leyes, decretos, órdenes, normativas y artículos. Se adopta una metodología híbrida que reúne tres técnicas principales: Patrones de expresiones regulares, listas de fuentes externas y el entrenamiento de tres modelos NERC utilizando la librería abierta spaCy v3. De los tres modelos entrenados, el mejor ha obtenido un f-score de 0.93 alcanzando en algunos tipos como las menciones a leyes o fechas valores de 0.98 y 0.97 respectivamente. El peor de los modelos ha alcanzado una media de f-score de 0.85 que sigue siendo un resultado satisfactorio comparado con el estado de la cuestión.

Texto completo:

PDF