Skip to main content
Txatbota
2023 | Azaroa 10

Txatbotak datu-multzo txikiak erabiliz garatzeko estrategiak

Irailaren amaieran izan den SEPLNren Nazioarteko XXXIX. Biltzarrean Strategies for bilingual intent classification for small datasets scenarios artikulua aurkeztu du Oraik. Entrenatzeko datu-multzo txikiak erabiltzeko aukera dagoen egoeretan, txatbot-erabiltzaileek dituzten asmoak sailkatzeko erabil daitezkeen estrategiei buruz egindako ikerketen berri eman du Maddalen Lopez de Lacalle ikertzaileak.

Hasiera batean pertsona batek bideratu ohi zituen eragiketak edo izapideak era automatikoan egiten saiatzen dira task-oriented txatbot-ak edo eragiketak egitera zuzendutako txatbotak. Mota hauetako txatbot edo laguntzaile birtualetan asmo-sailkatzaileak erabiltzen dira erabiltzailearen eskaeraren atzean zer asmo edo nahi dagoen ulertu ahal izateko. “Jo dezagun erabiltzaile batek ‘Ez dut pilateseko ikastaroan jarraitu nahi’ esaten diola udaleko kirol-zerbitzuak automatizatzen laguntzen duen txatbot edo morroiari —azaldu du Oraiko ikertzaileak—. Txatbotaren asmo-sailkatzaileak ‘Ikastaroa_bertan_behera’ klasean sailkatu behar du erabiltzailearen mezua, hurrengo urratsa zein den erabakitzeko”.

Asmo-sailkatzaileak entrenatzeko, ataza jakin hori (erabiltzailearen asmoa sailkatzea) egiten erakutsi behar zaie aurrez entrenatutako hizkuntza-eredu neuronalei (zeinek hizkuntzari buruzko ezagutza orokorra baitute). “Horretarako, datasetak edo datu-multzoak behar dira, esaldiak klaseetan sailkatuta dituztenak. Txatbotaren erabilera-eremu bakoitzarentzat (kirol-zerbitzuak, hegaldiak erreserbatzea...) dagozkion klaseetan sailkatutako adibide berriak sortu behar dira hizkuntza-ereduak ataza horretan entrenatzeko. Gainera, txatbotak hizkuntza bat baino gehiago ulertu behar badu, hizkuntza desberdinetan sortu beharko ditugu adibideak”, azaldu du Lopez de Lacallek.

Ikerketa honetan, Oraiko ikertzaileek aztertu dute nola eraiki asmo-sailkatzaile elebidunak (euskara/gaztelania) oso entrenamendu-datu gutxi dauden egoeretan: “Zehazki, aztertu dugu automatikoki nola sortu adibide sintetiko gehiago eskuz sortutako adibide gutxi batzuetatik abiatuta, bai eta adibide horiek sailkatzaileen errendimendua hobetzen ote duten ere”.

Entrenamendurako datu-kopurua handitzeko bi estrategia landu dituzte, eta biek dute oinarrian parafrasiak sortzea, hau da, gauzak beste hitz batzuekin esatea: “Batetik, itzulpen automatikoan oinarritzen den backtranslation edo berritzulpena baliatu dugu; alegia, hizkuntza batean (adibidez, euskaraz) dauden adibideak beste hizkuntza batera (gaztelaniara) itzuli, eta, ondoren, berriz hasierako hizkuntzara itzultzea. Eta, bestetik, parafrasiak sortzeko entrenatu diren hizkuntza-ereduak erabili ditugu gure adibideen parafrasiak sortzeko”.

Ikertzaileak adierazi duenez, “gure esperimentuek erakutsi dute backtranslation estrategiaren bidez sortutako parafrasiek laguntzen dutela sailkatzaileen emaitzak hobetzen”. Horrela, “errazago eraiki daiteke beste erabilera-eremu baterako laguntzaile birtual baten asmo-sailkatzaile bat eskuz sortutako datu gutxi batzuetatik abiatuta. Ez dugu eskuz sortu beharko datu-multzo handirik, guk proposatutako estrategiak aplika baititzakegu” dio Maddalen Lopez de Lacallek.

 

Erreferentzia bibliografikoa

Maddalen López de Lacalle, Xabier Saralegi, Aitzol Saizar, Gorka Urbizu, Ander Corral
Strategies for bilingual intent classification for small datasets scenarios
SEPLN
DOI: 10.26342/2023-71-11

Laguntzaile adimendunak
Elkarrizketa-laguntzaileak