3 research outputs found
Kausazko koherentzia-erlazioen azterketa automatikoa euskarazko laburpen zientifikoetan
Detecting automatically the cause relations of a text may be useful in question answering tasks and event information extraction. The aim of this paper is to study how to detect coherence relations of the cause subgroup (CAUSE, RESULT and PURPOSE). TO achieve this aim we have used the Rhetorical Structure Theory (RST) and some automatic linguistic information from different tools developed by IXA Group. We have used a corpus of 60 scientific abstracts, the Basque RST Treebank (Iruskieta et al., 2013), of different domains: science, medicine and terminology. A linguist has annotated all the signals of that corpus and described the most important problems in such task. To report the reliability of this annotator, two linguists have annotated the signals of the cause subgroup and all the annotations were compared and evaluated. After that, a superannotator has harmonized all the signals of those cause relations. Finally, we show the most important signals for such relations
Readability assessment and automatic text simplification, the analysis of basque complex structures
301 p.(eus); 217 (eng)Tesi-lan honetan, euskarazko testuen konplexutasuna eta sinplifikazioa automatikoki aztertzeko lehen urratsak egin ditugu. Testuen konplexutasuna aztertzeko, testuen sinplifikazio automatikoa helburu duten beste hizkuntzetako lanetan eta euskarazko corpusetan egindako azterketa linguistikoan oinarritu gara. Azterketa horietatik testuak automatikoki sinplifikatzeko oinarri linguistikoak ezarri ditugu. Konplexutasuna automatikoki analizatzeko, ezaugarri linguistikoetan eta ikasketa automatikoko tekniketan oinarrituta ErreXail sistema sortu eta inplementatu dugu.Horretaz gain, testuak automatikoki sinplifikatuko dituen Euskarazko Testuen Sinplifikatzailea (EuTS) sistemaren arkitektura diseinatu dugu, sistemaren modulu bakoitzean egingo diren eragiketak definituz eta, kasu-azterketa bezala,informazio biografikoa duten egitura parentetikoak sinplifikatuko dituen Biografix tresna eleaniztuna inplementatuz.Amaitzeko, Euskarazko Testu Sinplifikatuen Corpusa (ETSC) corpusa osatu dugu. Corpus hau baliatu dugu gure sinplifikaziorako azterketetatik ateratako hurbilpena beste batzuekin erkatzeko. Konparazio horiek egiteko, etiketatze-eskema bat ere definitu dugu
Hizkuntzaren prozesamendurako teknikak irakaskuntza arloan: galdera sortzaile automatikoa
Proiektu honen helburua hizkuntzaren prozesamendurako tresnek irakaskuntza
arloan izan dezaketen erabilgarritasuna aztertzea da. Konkretuki, irakaskuntza
materialen sorkuntzan laguntza handia eskaini dezake gaur egun
hizkuntzaren prozesamenduak.
Ariketak automatikoki prestatzeko sistemak, testu idatzien kalitatea hobetzen
laguntzeko sistemak, laburpengintza sistemak... denetarik sortu da
azken aldian. Baina, beste hizkuntzetarako buruturiko lana handia den arren
euskararako buruturiko lana oso murritza da. Honek bultzatuta, proiektu honetan
euskararako ariketak automatikoki sortzeko sistemetan azterketa bat
burutuko da, galdera ariketak automatikoki sortzeko zehazki. Galdera hauen
helburua ikasleek testuen ulermena lantzea izango da, horretarako testuko
alderdi esanguratsuenei buruz galdetzen saiatuko direlarik. Ataza hau burutzeko
bi ikerketa lerrotan sakonduko da:
Alde batetik, testuko zati esanguratsuenak bilatzen lagunduko duen modulu
bat inplementatuko da. Modulu honen helburua testuan agertzen diren
termino garrantzitsuenak markatzea eta pisatzea izango da. Termino esanguratsuak
bilatuz testuan garrantzitsu diren kontzeptuak zein izan daitezkeen
jakin dezakegu. Hau abiapuntu egokia izan daiteke testu baten ulermena
lantzen hasteko. Termino hauek markatzeko metodoa probabilitatean oinarriturikoa
izango da, hizkuntzaren prozesamenduko alderdi estatistikoa jorratuz.
Beste alde batetik, testuan bilaturiko termino garrantzitsuenen inguruan
galderak automatikoki eraikiko dituen modulu bat inplementatuko da. Honen
helburua esaldi bat eman eta ahalik eta galdera zentzuzko eta zuzenenak
sortzea izango da. Honetarako erregeletan oinarrituriko modulu bat inplementatuko
da, hizkuntzaren prozesamenduko alderdi linguistikoa jorratuz.
Bi modulu hauekin probak burutu ahal izateko euskararako existitzen
diren hainbat corpusen azterketa burutuko da. Proiekturako interesgarriak
izan daitezkeen corpusak eskuratu eta beharrezko bada corpus berriak biltzeko
helburua izango du azterketa honek.
Amaitzeko, modulu bakoitzean modu independentean burutuko diren
ebaluazioez gain ebaluazio orokor bat ere burutuko da. Bertan bi moduluak
elkarrekin lotu eta eszenatoki erreal batean sorturiko aplikazioak izan
dezakeen erabilgarritasuna aztertuko da