Pasar al contenido principal
Zelai Handi
2025 | 17 Febrero

Hemos ampliado ZelaiHandi: el mayor corpus para el euskera de textos bajo licencia libre

Trabajamos para ampliar continuamente los corpus para el euskera de textos bajo licencia libre

Presentamos la segunda versión de ZelaiHandi, el mayor corpus para el euskera de textos bajo licencia libre. Hemos incrementado el tamaño del corpus en más de 100 millón de palabras, pasando de 521 millones a 660 millones.

https://huggingface.co/datasets/orai-nlp/ZelaiHandi

ZelaiHandi se ha creado con el propósito de mejorar el desempeño de los modelos de lenguaje grandes o LLMs en euskera respetando los derechos de propiedad intelectual de los contenidos de entrenamiento. Llama-eus-8B es un ejemplo de ello, sobre el que estamos desarrollando asistentes conversacionales, correctores y traductores de alta precisión. Cuanto mayor sea el corpus en euskera mejor será la precisión de los LLMs y de este tipo de herramientas.

ZelaiHandi ha sido desarrollado por Orai dentro del proyecto Elkartek ICL4LANG donde hemos investigado junto a Tecnalia y el centro Hitz (UPV/EHU) tecnologías del lenguaje escalables y de alta precisión adaptadas a las necesidades de nuestra industria.