3 research outputs found

    Kausazko koherentzia-erlazioen azterketa automatikoa euskarazko laburpen zientifikoetan

    Get PDF
    Detecting automatically the cause relations of a text may be useful in question answering tasks and event information extraction. The aim of this paper is to study how to detect coherence relations of the cause subgroup (CAUSE, RESULT and PURPOSE). TO achieve this aim we have used the Rhetorical Structure Theory (RST) and some automatic linguistic information from different tools developed by IXA Group. We have used a corpus of 60 scientific abstracts, the Basque RST Treebank (Iruskieta et al., 2013), of different domains: science, medicine and terminology. A linguist has annotated all the signals of that corpus and described the most important problems in such task. To report the reliability of this annotator, two linguists have annotated the signals of the cause subgroup and all the annotations were compared and evaluated. After that, a superannotator has harmonized all the signals of those cause relations. Finally, we show the most important signals for such relations

    Readability assessment and automatic text simplification, the analysis of basque complex structures

    Get PDF
    301 p.(eus); 217 (eng)Tesi-lan honetan, euskarazko testuen konplexutasuna eta sinplifikazioa automatikoki aztertzeko lehen urratsak egin ditugu. Testuen konplexutasuna aztertzeko, testuen sinplifikazio automatikoa helburu duten beste hizkuntzetako lanetan eta euskarazko corpusetan egindako azterketa linguistikoan oinarritu gara. Azterketa horietatik testuak automatikoki sinplifikatzeko oinarri linguistikoak ezarri ditugu. Konplexutasuna automatikoki analizatzeko, ezaugarri linguistikoetan eta ikasketa automatikoko tekniketan oinarrituta ErreXail sistema sortu eta inplementatu dugu.Horretaz gain, testuak automatikoki sinplifikatuko dituen Euskarazko Testuen Sinplifikatzailea (EuTS) sistemaren arkitektura diseinatu dugu, sistemaren modulu bakoitzean egingo diren eragiketak definituz eta, kasu-azterketa bezala,informazio biografikoa duten egitura parentetikoak sinplifikatuko dituen Biografix tresna eleaniztuna inplementatuz.Amaitzeko, Euskarazko Testu Sinplifikatuen Corpusa (ETSC) corpusa osatu dugu. Corpus hau baliatu dugu gure sinplifikaziorako azterketetatik ateratako hurbilpena beste batzuekin erkatzeko. Konparazio horiek egiteko, etiketatze-eskema bat ere definitu dugu

    Hizkuntzaren prozesamendurako teknikak irakaskuntza arloan: galdera sortzaile automatikoa

    Get PDF
    Proiektu honen helburua hizkuntzaren prozesamendurako tresnek irakaskuntza arloan izan dezaketen erabilgarritasuna aztertzea da. Konkretuki, irakaskuntza materialen sorkuntzan laguntza handia eskaini dezake gaur egun hizkuntzaren prozesamenduak. Ariketak automatikoki prestatzeko sistemak, testu idatzien kalitatea hobetzen laguntzeko sistemak, laburpengintza sistemak... denetarik sortu da azken aldian. Baina, beste hizkuntzetarako buruturiko lana handia den arren euskararako buruturiko lana oso murritza da. Honek bultzatuta, proiektu honetan euskararako ariketak automatikoki sortzeko sistemetan azterketa bat burutuko da, galdera ariketak automatikoki sortzeko zehazki. Galdera hauen helburua ikasleek testuen ulermena lantzea izango da, horretarako testuko alderdi esanguratsuenei buruz galdetzen saiatuko direlarik. Ataza hau burutzeko bi ikerketa lerrotan sakonduko da: Alde batetik, testuko zati esanguratsuenak bilatzen lagunduko duen modulu bat inplementatuko da. Modulu honen helburua testuan agertzen diren termino garrantzitsuenak markatzea eta pisatzea izango da. Termino esanguratsuak bilatuz testuan garrantzitsu diren kontzeptuak zein izan daitezkeen jakin dezakegu. Hau abiapuntu egokia izan daiteke testu baten ulermena lantzen hasteko. Termino hauek markatzeko metodoa probabilitatean oinarriturikoa izango da, hizkuntzaren prozesamenduko alderdi estatistikoa jorratuz. Beste alde batetik, testuan bilaturiko termino garrantzitsuenen inguruan galderak automatikoki eraikiko dituen modulu bat inplementatuko da. Honen helburua esaldi bat eman eta ahalik eta galdera zentzuzko eta zuzenenak sortzea izango da. Honetarako erregeletan oinarrituriko modulu bat inplementatuko da, hizkuntzaren prozesamenduko alderdi linguistikoa jorratuz. Bi modulu hauekin probak burutu ahal izateko euskararako existitzen diren hainbat corpusen azterketa burutuko da. Proiekturako interesgarriak izan daitezkeen corpusak eskuratu eta beharrezko bada corpus berriak biltzeko helburua izango du azterketa honek. Amaitzeko, modulu bakoitzean modu independentean burutuko diren ebaluazioez gain ebaluazio orokor bat ere burutuko da. Bertan bi moduluak elkarrekin lotu eta eszenatoki erreal batean sorturiko aplikazioak izan dezakeen erabilgarritasuna aztertuko da
    corecore