Pasar al contenido principal
ZelaiHandi
2024 | 05 Marzo

Presentamos ZelaiHandi, el mayor corpus en euskera de textos bajo licencia libre

El corpus consta de 521,5 millones de palabras, y los textos han sido recopilados de un conjunto seleccionado de sitios web para asegurar su calidad y variedad temática. Además, su contenido será actualizado periódicamente.

Este corpus ha sido creado con el propósito de facilitar el desarrollo e investigación de modelos de lenguaje neuronales con capacidades de comprensión y generación del euskera.

https://huggingface.co/datasets/orai-nlp/ZelaiHandi

ZelaiHandi ha sido desarrollado por Orai, dentro del proyecto Elkartek ICL4LANG, donde investigamos, junto a Tecnalia e HiTZ zentroa (UPV/EHU), tecnologías del lenguaje escalables y de alta precisión adaptadas a las necesidades de nuestra industria.