2024 | 05 Marzo
Presentamos ZelaiHandi, el mayor corpus en euskera de textos bajo licencia libre
El corpus consta de 521,5 millones de palabras, y los textos han sido recopilados de un conjunto seleccionado de sitios web para asegurar su calidad y variedad temática. Además, su contenido será actualizado periódicamente.
Este corpus ha sido creado con el propósito de facilitar el desarrollo e investigación de modelos de lenguaje neuronales con capacidades de comprensión y generación del euskera.
https://huggingface.co/datasets/orai-nlp/ZelaiHandi
ZelaiHandi ha sido desarrollado por Orai, dentro del proyecto Elkartek ICL4LANG, donde investigamos, junto a Tecnalia e HiTZ zentroa (UPV/EHU), tecnologías del lenguaje escalables y de alta precisión adaptadas a las necesidades de nuestra industria.
Azken postak
2024 | 20 Diciembre
2024 | 09 Diciembre
2024 | 04 Diciembre