Skip to main content
Zelai Handi
2025 | Otsaila 17

ZelaiHandi handitu dugu: lizentzia libreko testuen euskararako corpusik handiena

Lizentzia libreko testuen euskararako corpusak etengabe handitzen ari gara.

ZelaiHandiren bigarren bertsioa aurkezten dugu, lizentzia libreko testuen euskararako corpusik handiena. Corpusaren tamaina 100 milioi hitz baino gehiagotan handitu dugu, 521 milioitik 660 milioira.

https://huggingface.co/datasets/orai-nlp/ZelaiHandi

ZelaiHandi euskarazko eredu neuronal handien edo LLMen eraginkortasuna hobetzeko asmoarekin sortu da, entrenamendu edukien jabetza intelektualaren eskubideak errespetatuz. Llama-eus-8B da horren adibide, eta doitasun handiko elkarrizketa-laguntzaileak, zuzentzaileak eta itzultzaileak garatzen ari gara horren gainean. Euskarazko corpusa zenbat eta handiagoa izan, orduan eta hobea izango da LLMen eta horrelako tresnen eraginkortasuna.

ZelaiHandi Oraik garatu du ICL4LANG Elkartek proiektuaren barnean. Proiektu horretan, Tecnalia eta UPV/EHUren Hitz Zentroarekin batera, gure industriaren beharretara egokitzen diren zehaztasun handiko hizkuntza-teknologia eskalagarriak ikertu ditugu.