QTLeap proiektua: itzulpen automatikoa hobetu nahian – Hizkuntza-teknologiak, Ixa Taldearen bloga

Europako proiektu berri batean lanean gabiltza pasa den azarotik: QTLeap. UPV/EHUko IXA Taldeak proiektuko beste kideekin batera egungo itzultzaile automatikoen mugak gainditu nahi ditu.

Perfekziotik urrun dauden egungo itzultzaile automatikoen emaitzak kalitatean dezente hobetzea da helburua.
Proiektuak hiru urteko iraupena izango du. IXA Taldeak elkarlanean jardungo du itzulpengintza automatikoan aitzindariak diren Europako beste hainbat erakunderekin: Alemaniako DKFI, Lisboako Unibertsitatea, Pragako Charles Unibertsitatea, Bulgariako Zientzien Akademia IICT-BAS, Berlingo Humboldt Unibertsitatea eta Herbehereetako Groningengo Unibertsitatea.

Itzultzaile automatiko guztiek mugak dituzte. Egindako itzulpenak ez dira perfektuak, ezta gutxiago ere, baina laguntza-tresna baliagarri bilakatu dira azkenaldian.

Gramatikalki eta morfologikoki antzekoak diren hizkuntza-bikoteen arteko itzulpen automatiko on bat lortzea errazagoa da, gaztelania-katalana edo gaztelania-galegoa kasu. Euskararen kasuan, berriz, zailtasuna handiagoa da, eta lortzen den itzulpenaren kalitatea baxuagoa. Horretan hiru dira zailtasun handienak: 1) Euskarazko testuen egitura eta inguruko beste hizkuntzena oso ezberdinak direnez, itzulpeneko hitzen ordena asmatzea oso zaila da itzultzaile automatikoentzat, 2) hitz batek beste hizkuntzan dituen ordain egokia aukeratzea (adibidez, euskarazko baso hitza gaztelaniara itzultzerakoan ea bosque edo vaso aukeratu behar den, testuinguruaren ara. bera aukeratu behar da), eta 3) eskuz eta euskarara itzulitako testuekin osa daitekeen corpusa txikia dela.

Gaur egungo itzultzaile automatikoek dituzten muga horiek gainditzen saiatuko gara QTLeap proiektu horretan. Horretarako, batetik, zuhaitz-banku edo treebank-ak erabiliko ditugu. Helburua da sintaktikoki ongi analizatutako esaldi mordoxka bat biltzea, eta horrekin itzultzaile automatikoei laguntzea itzulpeneko sintaxia hobeto aukeratzen.

Bestetik, gaur egun, esaldi konkretu batean hitz batek duen esanahia bereizteko behar den informazioa ez dago hiztegietan bakarrik, Internetetik ere lor daiteke horrelakorik. Horrenbestez, hitzen esanahiak edo adierak behar bezala bereizten ikasteko, Interneteko zenbait baliabide erabiliko ditugu. Esaterako, Wikipedia bezalako testu-bilduma handia, non hainbatetan testuko hitz baten adiera ongi zehaztuta egoten den. Alegia, hitz baten gainean esteka bat badago esteka hori Wikipediako adieretako batera doa. Horrelako esteka asko dituzten testuak bilduz gero, horrekin konputagailuak berak ere ikas lezake adierak bereizten. Wikipedia iturri posibleetako bat besterik ez da, gaur egun, Interneten gero eta testu gehiago dago horrelako lotura edo estekekin; Linked Open Data izenaz ezagutzen dira horrelakoak modu librean erabiltzerik badago.

Halaber, izen propioak, pertsona-izenak, erakunde-izenak edota toki geografikoak modu berezian landuko ditugu. Izan ere, izen propio guztiak landuta izatea ezinezkoa da, baina multzo handi bat kontrolatuta izateak asko hobetuko du itzulpenen kalitatea. Horrek aukera emango du, adibidez, Pilar del Castillo izena itzulpenean bere horretan mantentzeko, eta ez gazteluko pilarea emaitza lortzeko.

Horrenbestez, hiru adar nagusi horiek —zuhaitz-bankuak, Interneteko baliabideak eta izen propioak— lantzen ari da IXA Taldeak pasa den azarotik QTLeap proiektuan, egungo euskarazko itzultzaile automatikoen hiru arazo nagusiei —ezberdintasun morfologiko eta gramatikala, adiera-desanbiguazioa eta corpus txikia— konponbide berriak aurkitzeko.

Utzi erantzuna Cancel Reply