2025 | 23 Enero

Orai en COLING 2025, conferencia internacional de lingüística computacional

Primer conjunto de datos para evaluar los sesgos sociales de los LLM en euskera, en Abu Dhabi

Muitze Zulaika, investigadora de Orai, ha participado en la 31.ª Conferencia Internacional de Lingüística Computacional COLING 2025, celebrada en Abu Dhabi entre el 19 y el 24 de enero, donde ha presentado el trabajo “BasqBBQ: A QA Benchmark for Assessing Social Biases in LLMs for Basque, a Low-Resource Language”.

Según ha explicado Zulaika, “en este trabajo hemos abordado un problema crítico de la inteligencia artificial: los sesgos sociales presentes en los grandes modelos lingüísticos (LLM), es decir, prejuicios o estereotipos”. Existen herramientas para medir los sesgos de los modelos para las grandes lenguas (por ejemplo, el inglés), pero no así para el euskera. En este trabajo hemos desarrollado “BasqBBQ, el primer conjunto de datos diseñado específicamente para evaluar los sesgos sociales del euskera. Nuestro conjunto de datos cuenta con más de 43.000 ejemplos adaptados a la lengua y cultura vascas, lo que nos permite medir los sesgos de 8 ámbitos sociales: género, edad, raza, nivel socioeconómico, orientación sexual, situación de discapacidad, aspecto físico y nacionalidad”. A través de esta herramienta se han medido seis grandes modelos lingüísticos que saben euskera y se han obtenido los siguientes resultados: “Los modelos más grandes presentan mayor rendimiento en general, pero a menudo amplifican los sesgos cuando el contexto es ambiguo”, señala la investigadora.

Muitze Zulaika ha realizado este estudio junto a Xabier Saralegi en el contexto del proyecto ICL4LANG.

La investigadora de Orai ha hablado sobre esta investigación en el programa Faktoria de Euskadi Irratia.

Modelos lingüísticos neuronales

Orai en COLING 2025, conferencia internacional de lingüística computacional

Primer conjunto de datos para evaluar los sesgos sociales de los LLM en euskera, en Abu Dhabi

Azken postak

Hemos ampliado ZelaiHandi: el mayor corpus para el euskera de textos bajo licencia libre

El señor de los ejemplos y la comunidad de la IA

Adimen artifiziala: DeepSeek, kode irekiko AA azkarrena eta merkeena