2024 | Iraila 11

Eredu neuronal berria euskarazko adimen artifizialerako

Oraik Llama-eus-8B garatu du: euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemetarako eredu neuronal libre berriena.
Hainbat tresna garatzeko erabiliko da: txatbotak, itzultzaile automatikoak, zuzentzaile gramatikalak, bilatzaileak, edukiak sortzeko sistemak...

Adimen artifizialean aurrera egiteko ikerketak abiadura bizian dabiltza. Hizkuntza naturalaren prozesamenduak oztopo bereziak jartzen dizkie baliabide gutxi dituzten hizkuntzei, ez baitute hizkuntza handien neurri berean aurrera egiteko behar adina testu- edo datu-bilduma eta baliabide konputazional. Horrenbestez, bestelako estrategia batzuk erabili behar dira hizkuntza handietan erabiltzen diren adimen artifizialeko tresnak euskarara ekartzeko, eta estrategia horien bilaketan aurrerapauso handiak lortzen ari da euskal ikertzaile-komunitatea.

Orai NLP Teknologiak Elhuyarren adimen artifizialeko zentroak Llama-eus-8B garatu du, hizkuntza-eredu neuronal berri bat (LLM, Large Language Model), euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemak errazago garatzeko diseinatua. Llama-eus-8B eredu fundazional bat da, alegia, adimen artifizial sortzailearen (edo txatbot ezagunen) oinarri gisa erabiltzen den eredu-mota. Eredu fundazional arinen esparruan (10 mila milioi parametro baino gutxiagokoak) euskararako dagoen eredurik aurreratuena da hau.

Arlo akademikoan zein industrialean euskarazko teknologien garapena eta ikerketa errazteko asmoz, Llama-eus-8B modu librean eskuratzeko moduan jarri da. Eredua BasqueLLM ikerketa-proiektuaren barnean garatu da, zeina Gipuzkoako Foru Aldundiak partzialki finantzatu baitu, Gipuzkoako Zientzia, Teknologia eta Berrikuntza Sarea Programaren bidez.

Hemen aurkitu dezakezue eredua deskargatzeko esteka eta haren garapenari eta ebaluazioari buruzko azalpen teknikoa: https://huggingface.co/orai-nlp/Llama-eus-8B

Oraik Llama-eus-8B oinarri gisa erabiliko du euskara ulertzeko eta sortzeko gaitasun sakona eskatzen duten zenbait tresna garatzeko, besteak beste, zuzentzaile gramatikalak, edukiak sortzeko sistemak, hezkuntza-materialak sortzeko sistemak, bilatzaileak, txatbotak eta itzultzaile automatikoak.

Xabier Saralegi BasqueLLM proiektuaren ikertzaile nagusiaren arabera, “gaur egun entrenamendu estrategia alternatiboekin esperimentatzen ari gara, euskarazko testu bilduma handiagoen beharrik gabe emaitzak hobetu ahal izateko. Ingelesez ikasitako gaitasunak euskarara ekartzea ahalbidetuko duten estrategiak bilatzen ari gara”.

Ingelesezko milioika testutatik ikasitako gaitasunak euskarara transferitzea

Llama-eus-8B garatzeko, Meta-ren Llama3.1-8B eredu berriena erabili da oinarrizko eredu gisa (8 mila milioi parametroko kode irekiko eredua da). Hizkuntza-eredu neuronal hori ikasketa automatikoko algoritmoen bidez sortu da, testu-bilduma handi bat erabiliz (15 bilioi hitz), gehienak ingelesez, eta oso eraginkorra da hizkuntza horretan (eta beste hizkuntza nagusi batzuetan), hizkuntza-gaitasunak eskatzen dituzten atazak automatizatzeko (itzulpen automatikoa, laburpen automatikoa, edukien sorkuntza, elkarrizketa-sistemak…). Hala ere, euskarazko errendimendua oso mugatua da.

Euskarazko testu-bilduma erraldoirik ez dagoenez eta euskararako halako eredu bat hutsetik entrenatzeko beharrezkoak diren eskakizun konputazionalak oso handiak direnez, “Llama3.1-8B-tik abiatzea erabaki dugu, oinarri sendoa baitu. Helburua ingelesezko milioika testutatik ikasitako gaitasunak euskarara transferitzea izan da, ikasketa automatikoko algoritmoen bidez eta euskarazko testu-bilduma bat erabiliz”, adierazi du Xabier Saralegi Oraiko hizkuntza-teknologien arduradunak.

Horretarako, Oraik duela hilabete batzuk bildutako ZelaiHandi corpusa erabili da, lizentzia librea duen eta kalitate handikoa den euskarazko edukia soilik biltzen duen euskarazko corpusik handiena. Ingelesaren eta euskararen arteko gaitasunen transferentzia hobetzeko, ZelaiHandiko testuak ingelesezko testuekin konbinatu dira. Hala, “ereduak ingelesezko ezagutza mantentzea lortu dugu, eta, aldi berean, euskararen ulermena hobetzea, jatorrizko entrenamenduan ingeleserako ikasitakoa eraginkortasunez berrerabiliz”, dio Ander Corral Oraiko ikertzaileak. Ereduaren entrenamendua Donostia International Physics Centerreko (DIPC) superkonputazio-zentroko Hyperion sistema erabiliz egin da.

Eredua euskarazko 11 ataza kontuan hartzen dituen proba-banku zabal batean ebaluatu da, zeinetan hizkuntza-gaitasun formalak (gramatika eta hiztegia zuzen erabiltzea) eta funtzionalak (hizkuntza testuinguru errealetan ulertzeko eta erabiltzeko gaitasuna) erabili baitira: eskola-azterketak, arazoen ebazpena, hainbat gairi buruzko galdeketak, iritzi-azterketa eta abar egin dira.

Ebaluazioaren emaitzek erakusten dutenez, Llama-eus-8B da gaur egun eskuragarri dauden euskarazko eredu fundazional arinen artean emaitza hoberenak ematen dituena (10 mila milioi parametrotik beherakoetan), eta, hala, baliabide baliotsua da euskarazko hizkuntza-gaitasunak behar dituzten adimen artifizialeko sistemak garatzeko. Zenbait atazatan, askoz handiagoak diren ereduak baino emaitza lehiakorragoak ematen ditu. Nolanahi ere, emaitzak ingeleseko emaitzetatik gero eta hurbilago dauden arren, euskarazko errendimendua ingelesekoa baino askoz txikiagoa da oraindik ere.

(Irudia: Wes Cockx & Google DeepMind / Better Images of AI / AI large language models / CC-BY 4.0)

Hizkuntza-eredu neuronalak

Eredu neuronal berria euskarazko adimen artifizialerako

Oraik Llama-eus-8B garatu du: euskara idatzia ulertzea eta sortzea eskatzen duten adimen artifizialeko sistemetarako eredu neuronal libre berriena.

Hainbat tresna garatzeko erabiliko da: txatbotak, itzultzaile automatikoak, zuzentzaile gramatikalak, bilatzaileak, edukiak sortzeko sistemak...

Ingelesezko milioika testutatik ikasitako gaitasunak euskarara transferitzea

Azken postak

Euskarazko diktaketa-sistema berria, dibertsitate funtzionala duten haur eta gazteentzako lagungarri

ZelaiHandi handitu dugu: lizentzia libreko testuen euskararako corpusik handiena

Adibideen jauna eta AAren elkartea