
ZelaiHandi handitu dugu: lizentzia libreko testuen euskararako corpusik handiena
Lizentzia libreko testuen euskararako corpusak etengabe handitzen ari gara.
ZelaiHandiren bigarren bertsioa aurkezten dugu, lizentzia libreko testuen euskararako corpusik handiena. Corpusaren tamaina 100 milioi hitz baino gehiagotan handitu dugu, 521 milioitik 660 milioira.
https://huggingface.co/datasets/orai-nlp/ZelaiHandi
ZelaiHandi euskarazko eredu neuronal handien edo LLMen eraginkortasuna hobetzeko asmoarekin sortu da, entrenamendu edukien jabetza intelektualaren eskubideak errespetatuz. Llama-eus-8B da horren adibide, eta doitasun handiko elkarrizketa-laguntzaileak, zuzentzaileak eta itzultzaileak garatzen ari gara horren gainean. Euskarazko corpusa zenbat eta handiagoa izan, orduan eta hobea izango da LLMen eta horrelako tresnen eraginkortasuna.
ZelaiHandi Oraik garatu du ICL4LANG Elkartek proiektuaren barnean. Proiektu horretan, Tecnalia eta UPV/EHUren Hitz Zentroarekin batera, gure industriaren beharretara egokitzen diren zehaztasun handiko hizkuntza-teknologia eskalagarriak ikertu ditugu.