Dokumentuaren akzioak
Itziar Gonzalez-Dios: "Gizarteari zer ikertzen ari garen eta zer lortzen dugun adieraztea zor diogula ezin dugu ahaztu"
Itziar Gonzalez-Dios Pasai San Pedrokoa da eta 26 urte ditu. Alemaniar Filologian lizentziatu zen UPV/EHUn eta egun tesia egiten dabil unibertsitate bereko IXA Taldean. Bere tesiaren behin-behineko izenburua "Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan" da eta 2015 amaieran edo 2016 hasieran irakurtzeko asmoa du.
Azaroaren 18an ospatu zen "Txiokatu zure tesia 6 mezutan" (#txiotesia2) lehiaketako Txiolari ulergarrienaren saria eskuratu zuen. Berarekin izan gara.
Lehenik eta behin, zorionak! #txiotesia2 lehiaketako sari nagusia eskuratu duzu. Zure ikerketa era ulergarrian azaltzea erronka handia izan da?
Mila esker!!! Erronka, bai, izan da. Tesiak alor asko barneratzen ditu (sintaxia, hizkuntzaren konplexutasuna eta testuen sinplifikazioa batez ere) eta guztiak laburtzea zaila da. Hala ere, oso ariketa polita da, laburpena egiteak eskatzen duen sintesi lanaz gain, testu dibulgatibo moduan eman behar da, eta hori zaila egiten zaigu askotan. Artikuluetan, txostenetan eta kongresuetan erabiltzen dugun hizkera eta teknizismoak alde batera uztea eta beste modu batera ematea, hau da, gure lana beste hitz batzuekin azaltzea erronka polita da. Hala ere, nik 'abantailatxo' bat nuen. Tesian testuak sinpleagoak egin nahi ditut eta tesian zehar ikasitakoak aplikatu nituen lehiaketan.
Alemaniar Filologia Gasteizen ikasi eta informatikarien eta hizkuntzalarien lana uztartzen dituen munduan murgildu zinen gero.
Lizentziatura amaitzear nengoela, ez nekien ziur zer egingo nuen hurrengo urtean. Masterrak begiratzen egon nintzen eta zalantzan egon nintzen hiru aukeren artean: literaturakoa, irakasle izateko prestakuntza eta hizkuntza eta informatika uztartzen zituen beste bat. Azken honek erakarri ninduen gehien; guztiz berria zen niretzat eta horixe aukeratu nuen. Horrela hasi nintzen Hizkuntzaren Azterketa eta Prozesamendua egiten. Lehenengo ikasgaitik mundu berri bat izan nuen aurrean eta, batez ere, gogoan dut lehendabiziko astean jada programatzen hasi nintzela Kepa Sarasola eta Maite Oronoz irakasleekin. Izugarria izan zen niretzat aste bete lehenago ia ezagutzen ez nuen zerbait egin ahal izatea, maila apalean bada ere. Ordenagailuak nik nahi nuena egiten zuen!!! Masterrean nengoela Ixa taldean hasi nintzen eta horrek ikasten ari nintzena sakontzeko aukera eman zidan. Eta hilabeteak pasa ahala hasi zen tesia egiteko aukera.
Euskararen egituren konplexutasuna sinplifikatzeko modu automatikoa ikertzen ari zara tesian. Zein da zehazki burutzen ari zaren lana?
Batetik, sintaxiaren azterketa egiten egon gara; corpusetatik (testu multzo handiak) esaldi luzeak eta mendeko perpausak dituzten esaldiak eta testuak hartu ditugu eta, ondoren, horiek modu sinpleago batean emateko proposamenak egin ditugu.
Bestetik, corpusetan oinarrituz, ErreXail sistema garatu dugu. ErreXailek testuak zenbaki bihurtzen ditu eta adibidez, esaldietan dauden hitzen batazbestekoa, mendeko perpausen ratioa, behin soilik agertzen diren hitzen batazbestekoa eta horrelako beste 93 datu ematen dizkigu. Datu horiekin eta ikasketa automatikoko teknikak erabiliz ErreXail gai da testu bat konplexua ala sinplea den esateko.
Beraz, gure asmoa da bi ildo handi horiek uztartzen bukatzea eta konplexuak diren testuak sinplifikatuko dituen sistema bat garatzea. Sistema horrek euskara ikasten ari direnei eta euskaraz irakurtzeko zailtasunak dituztenei testuak modu sinpleago batean emango lizkieke. Bestalde, gure sistemak sinplifikatu dituen esaldiak beste sistema batek prozesatzen baditu sistema horren emaitza hobea izango litzateke. Hau da, itzultzaile automatiko batek jatorrizko testua itzuli beharrean guk sinplifikatutako testua itzuliko balu, itzulpena hobea izango da.
Euskarak berak, eskuartean duzun lana konplexuagoa egiten du beste hizkuntza batzuekin parekatzen badugu?
Ez dut uste euskararen tipologia dela eta zailtasun gehiago dagoenik. Azken finean gure lanaren arrakasta baliabideetan datza. ErreXail bezalako sistema bat egitea ezinezkoa litzateke aurretik Ixa taldean egindako lan guztia egin izan ez balitz. Ingelesez askoz baliabide gehiago dituzte, eta horrek lana erraztu egiten die. Adibidez, aposizioak aztertzeko ingelesezko sistemak egiten dituztenek ez dute inolako arazorik izan. Guk, ordea, aposizioak detektatzeko tresna bat sortu egin behar izan genuen. Tresnez gain, ingelesez corpus izugarriak dituzte eta horrek teknika estatistikoak erabiltzea ahalbidetzen die. Sistema bat baino gehiago garatu dira ingeles Wikipedia eta Simple Wikipedia erabilita. Guk horrelakorik ez daukagu eta dauzkagun baliabideekin egin behar dugu lan. Lan txukuna gainera! Ingeleserako lan egiten dutenei ez zaie inoiz burutik pasako testu sinpleen corpusa lortzea zaila denik (ez eta Europa iparraldeko herriei ere!), gobernuek plain language edo irakurketa erraza bultzatzen dutelako. Gurean ez dago horrelakorik...
Bestalde, euskararen morfologia dela eta baditugu abantaila batzuk. Aurreko abuztuan workshop batean egon nintzen eta aurkezpen batean erlatibozko esaldiak detektatzeko lan bat aurkeztu zuten. Teknika dezente probatu eta gero arazo ugari zituzten eta emaitzak ez ziren oso onak. Harrituta geratu nintzen, izan ere, gure kasuan, erlatibozko perpausak erraz detektatzen ditugu eta % 98 inguruko arrakastarekin!
Tesia egiteko bidaian abiatu zinen duela 3 urte. Zer nolako esperientzia izaten ari da?
Denetik pixka bat! Urduria naiz eta batez ere artikuluak bidaltzeko epeak iristen zirenean lehenengo urtean oso urduri jartzen nintzen. Orain ikasi dut lasaitzen... Eta tesiarekin batera datozen poztasunak eta frustrazioak zailtasunekin lotuta daude. Oso pozik jartzen zara zailtasun baten aurrean sistemak ondo erantzun duela ikustean eta frustratuta arazo bati aurre egin ezin diozunean. Kasu horietan hoberena, nire ustetan, beste gauza batean hastea eta hurrengo egunerako uztea da. Ideia etorriko da!
Bestetik, kongresuetara joateko aukera izatea oso aberasgarria izan da niretzat. Ez soilik bidaietan ikasten denagatik, baizik eta zure alorrean ere lan egiten dutenenekin hitz eginda esperientzia, arazoak eta ideia berriak partekatu ditzakezulako.
#txiotesia lehiaketako bi edizioetan parte hartu duzu, eta sarean ere bazabiltza. Ikertzen ari zaren hori dibulgatzea garrantzitsua dela uste duzu?
Bai, askotan ahazten zaigun arren. Mila gauza dauzkagu buruan eta dibulgazioa ez dago gure lehentasunen artean. Ez digute hori egin behar denik irakatsi; artikuluak aldizkarietara bidali behar direla bai, baina ez artikulu hori dibulgaziora egokitzen. Beti dator beste artikulu bat ondoren. Guk ere iniziatiba har genezake, baina zaila da inguruan horrelakorik egiten ez bada. Eta, gainera, nik uste dut gazteok gaiari beldur pittin bat ere badiogula. Dibulgatzaileak normalean ikertzaile eskarmentudunak izaten dira eta ez zaigu iruditzen gu horretarako prest gaudenik. Gure lana oraindik 'txikia' dela iruditzen zaigu. Baina ezin dugu ahaztu gure beka asko eta asko diru publikoarekin ordainduta daudela eta gizarteari zertan ari garen eta zer lortzen dugun adieraztea zor diogula. Horregatik #txiotesia bezalako ekimenak oso garrantzitsuak dira, ez bakarrik guk egiten duguna azaltzeko, baita besteek egiten dutena ezagutzeko ere.
Orain tesiaren azken urtean zabiltza buru belarri, horrez gain ba al duzu bestelakorik esku artean?
Ez, une honetan nire lehentasuna tesia da. Nazioarteko tesiaren aipamen lortzeko hiru hilabeteko egonaldia egiteko asmoa dut udaberrian, baina, berez, ez dut besterik esku artean.