Testu eta irudien arteko antzekotasun semantikoa aztertzen

Abstract

Lengoaia Naturalaren Prozesamendu eta Ikusmen Artifizialaren arloaren erdigunean mo- dalitate anitzak, irudi eta testuak, aldi berean prozesatzea da helburu nagusietako bat. Proiektu honetan modalitate anitzeko sistemen estimazioak modalitate bakarra erabiltzen dutenena baino hobeagoak diren aztertu da. Hori burutzeko testu eta irudien arteko antze- kotasun semantikoak aztertu dira, STS eta vSTS atazen bidez. STS modalitate bakarreko ataza da, non bi esaldiren arteko antzekotasun semantikoak aztertzen diren. IXA taldeak berriki sortu duen vSTS atazan, aldiz, testu eta irudien errepresentazioak maneiatzen dira esaldien arteko antzekotasun semantikoak aztertzeko —hots, modalitate anitzeko ataza bat da—. Kasu honetan, esaldi bakoitza irudi batez lagunduta dator, esaldi hori irudiaren goiburukoa edo captiona delarik. Ataza horiek ebazteko artearen egoeran dauden hainbat motatako neurona-sare sakon landu dira. Hauen artean modalitate bakarra erabiltzen duten BERT, GloVe, GPT-2 eta USE sistemak aurkitzen dira, baita modalitate anitzeko errepresentazioak eraikitzen di- tuen VSE++ sarea ere. Sistema hauek STS eta vSTS atazetara moldatu dira, hauen erren- dimendua kasu ez-gainbegiratu eta gainbegiratuetan aztertuz. Aipatutako sistemak vSTS datu multzoan probatu dira. Datu multzo hau proiektu honetatik kanpo sortu eta hedatu bada ere, bere garapena sakon aztertu dugu. Gainera, modalitate anitzeko sistema berri bat sortu da, DiscoGAN arkitekturan oinarri- tuta dagoena, DiscoGAN-M 3 . DiscoGAN-M 3 sistemak modalitate anitzeko errepresenta- zioekin lan egiten ez badu ere, bi modalitateen arteko transformazioak ikasten ditu. Arki- tektura berri honen logika, eraikuntza eta ikasketa prozesuak sakonki azaldu dira. Gure lanak modalitate anitzeko adierazpenak erabiltzean emaitza hobeagoak lortzen dire- la erakusten du esperimentu ez-gainbegiratuetan. Hala ere, esperimentu gainbegiratuetan ez da horrela izan. Kasu horretan atentzio-mekanismoak erabiltzen dituen BERT bezala- ko Transformerrek emaitza onenak lortzen dituzte, vSTS atazan artearen egoera definituz. Egindako lanak modalitate anitzeko adierazpenen kontribuzioa erakusten badu ere, kasu gainbegiratuetan emaitzak hobetzeko aukera asko daudela uste da

    Similar works