Análisis de la riqueza léxica en el contexto de la clasificación de atributos demográficos latentes

John A. Roberto , M. Antònia Martí, Maria Salamó Llorente

Resumen


En este artículo analizamos la utilidad que tiene el cálculo de la riqueza léxica para predecir atributos demográficos latentes en textos de opinión del español. Nuestro objetivo es determinar hasta qué punto la riqueza léxica permite predecir el sexo, la edad y la procedencia de los autores de este tipo de textos. Para ello hemos analizado 32 métricas de la riqueza léxica en 1911 textos de opinión previamente etiquetados con información demográfica. Esta aproximación tiene como principales ventajas la independencia del dominio y la reducción del coste computacional.

Texto completo:

PDF