Skip to main content
Gorka Urbizu ACL23
2023 | Uztaila 11

Baliabide mugatuko egoera eta hizkuntzetan eredu neuronal lehiakorrak lortzeko ikerketak

  • Orairen ikerketa-ildoetako bat da hizkuntza naturalaren prozesamendua baliabide gutxiagoko inguruneetan indartzeko bideak bilatzea.
  • Elkartek deialdiari esker Oraik landutako bi artikulu zientifiko onartu dituzte hizkuntza naturalaren prozesamenduko nazioarteko ACL23 kongresuan, Toronton.

 

Hizkuntza-eredu neuronalak dira hizkuntza-teknologiekin lan egiteko oinarria, alegia, hizkuntza bat automatikoki ulertzeko eta sortzeko eredu konputazionalak. Haien bidez lortzen da, esate baterako, testuak laburtzea, zuzentzea, galdera-erantzun bidezko bilaketa-sistemak, txatbotak, sentimenduen analisia egitea, gaien erauzketa eta abar.

Azken urteetan, aurrez entrenatutako hizkuntza-eredu neuronalak bilakatu dira hizkuntzaren prozesamenduko ataza oro lantzeko eta ebazteko giltza. Hala ere, halakoak sortzeko, hizkuntza gutxi batzuen esku baino ez dauden datu-kopuru erraldoiak behar dira. Horrez gain, hizkuntza-eredu handiek energia asko kontsumitzen dute, eta azken aldian ereduak handitzeko eta handitzeko ikusi den joera ia bideraezina da hizkuntza naturalaren prozesamenduan (NLPn) jarduten duten profesional askorentzat, datu-kopuru eta sareen tamaina erraldoiak behar baitira, eta konputazio-ahalmen handia; eta hori ez dago ez hizkuntza guztien ez ahalmen konputazional mugatua duten ikerketa-zentroen eskura.

Ildo horretan ari dira ikertzen, besteak beste, Orai NLP Teknologietako ikertzaileak, nola baliatu hizkuntza-eredu neuronalak hain datu-kopuru handiak eta horrenbesteko konputazio-ahalmena baliatu ezin dituzten hizkuntzetarako eta inguruneetarako. Hain zuzen ere, arazo horri irtenbideak bilatzeko egindako bi ikerketa-lanen artikuluen aurkezpen laburra egin du Oraiko ikertzaile Gorka Urbizuk Association for Computational Linguistics-ek (Hizkuntzalaritza Konputazionalaren Elkarteak) antolatutako ACL23 biltzarrean, Toronton (artikuluak hemen ageri dira). Ikerketa horiek Elkartek deialdiko ICL4LANG proiektuan egin dira, zeina Tecnaliarekin eta HiTZ zentroarekin elkarlanean jarri baitute martxan Xabier Saralegi Oraiko NLP Teknologien arduraduna buru dutela, hizkuntza-ereduak konputazio eta datu gutxiagorekin ikertzeko.

Eredu neuronalak entrenatzeko, itzulpen automatikoa erabiltzea

Gorka Urbizuk azaldu duenez, batetik, aztertu dute “ea bideragarria ote den hizkuntza-ereduak entrenatzeko itzulpen automatiko bidez sortutako testua erabiltzea”. Hizkuntza handi bateko edukiak hizkuntza txikiago batera itzuliz lortutako ereduak baliagarri diren ikusteko, gaztelaniazko corpus erraldoiak itzuli dituzte euskarara, eta haiekin hainbat hizkuntza-eredu entrenatu, besteak beste, euskarazko testu natiboekin konbinatuz. “Frogatu dugu itzulpen-sistema sendo bat eskuragarri dagoenean posible dela hizkuntza-eredu sendo bat eraikitzea itzulitako testuak baliatuz. Gainera, ikusi dugu itzulitako testuen gaiak eta testuinguru geografiko eta kulturala nolabait aintzat hartu behar direla testu natiboekin bat etortzeko”, adierazi du.

Ikertzaileek diotenez, orain arte, “ez da ohiko metodoa izan hizkuntza-ereduak entrenatzeko itzulpen automatikoa erabiltzea. Eta hizkuntza asko daude euskararen pare, hau da, itzulpen automatikoko sistema on bat badutenak, baina hizkuntza-ereduak entrenatzeko behar diren testu- edo datu-kopuru elebakar mugatuak dauzkatenak”. Horrenbestez, ikerketa honek bide bat zabaltzen die datu gutxi daukaten hizkuntzei eta ikertzaileei, hizkuntza-eredu lehiakor bat lor dezaten.

Baliabide gutxiko konputazioarekin erabili beharreko parametro- eta datu-kopuru optimoak

Hizkuntza-eredu neuronalak handituz doazen neurrian, ikerketa batzuek hainbat erlazio optimo ezarri dituzte hizkuntza-ereduak izan behar dituen parametro-kopuruaren, datu-multzoaren tamainaren eta konputazio-kostuen artean, “baina eskala handiko hizkuntza-ereduetan oinarritzen dira. Beraz, aztertu nahi izan dugu ea datu gutxi eta konputazio-baliabide mugatuak daudenean haien arteko konbinazio optimoa zein den; ea eredu handiagoak edo txikixeagoak erabili behar diren, eta zein baldintzatan”, azaldu du Urbizuk.

Horri erantzuteko, euskara, gaztelania, swahili eta suomierako hainbat hizkuntza-eredu sortu dituzte, tamaina desberdinetako zenbait corpus txikitatik abiatuta (5-125 milioi hitz bitartekoak), eta bakoitzarekin zenbait tamainatako hizkuntza-eredu txikiak entrenatu dituzte (16-124 milioi parametro bitartekoak). “Emaitzetatik ondorioztatu dugu beste ikerketa batzuetan ezarritako proportzio optimoak ez direla zehatzak baliabide mugatuko inguruneetan, eta, proportzioan, datu-kopuru optimoa aurrez aurreikusitako kopurua baino handiagoa dela”, dio Oraiko ikertzaileak. Ikerketa honetan, UPV/EHUko HiTZ zentroko ikertzaileak aritu dira lankidetzan.