11 research outputs found

    Identificación de cláusulas y chunks para el Euskera, usando Filtrado y Ranking con el Perceptron

    Get PDF
    Este artículo presenta sistemas de identificación de chunks y cláusulas para el euskera, combinando gramáticas basadas en reglas con técnicas de aprendizaje automático. Más concretamente, se utiliza el modelo de Filtrado y Ranking con el Perceptron (Carreras, Màrquez y Castro, 2005): un modelo de aprendizaje que permite identificar estructuras sintácticas parciales en la oración, con resultados óptimos para estas tareas en inglés. Este modelo permite incorporar nuevos atributos, y posibilita así el uso de información de diferentes fuentes. De esta manera, hemos añadido información lingüística en los algoritmos de aprendizaje. Así, los resultados del identificador de chunks han mejorado considerablemente y se ha compensado la influencia del relativamente pequeño corpus de entrenamiento que disponemos para el euskera. En cuanto a la identificación de cláusulas, los primeros resultados no son demasiado buenos, debido probablemente al orden libre del euskera y al pequeño corpus del que disponemos actualmente.This paper presents systems for syntactic chunking and clause identification for Basque, combining rule-based grammars with machine-learning techniques. Precisely, we used Filtering-Ranking with Perceptrons (Carreras, Màrquez and Castro, 2005): a learning model that recognizes partial syntactic structures in sentences, obtaining state-of-the-art performance for these tasks in English. This model allows incorporating a rich set of features to represent syntactic phrases, making possible to use information from different sources. We used this property in order to include more linguistic features in the learning model and the results obtained in chunking have been improved greatly. This way, we have made up for the relatively small training data available for Basque to learn a chunking model. In the case of clause identification, our preliminary results are low, which suggest that this is due to the free order of Basque and to the small corpus available.Research partly funded by the Basque Government (Department of Education, University and Research, IT-397-07), the Spanish Ministry of Education and Science (TIN2007-63173) and the ETORTEK-ANHITZ project from the Basque Government (Department of Culture and Industry, IE06- 185)

    Corpusen etiketatze linguistikoa

    Get PDF
    In this article, we shall comment on the steps that have to be taken to give a linguistic label to a corpus and the difficulties that appear in this process. Our main objective was to highlight the importance of the labelling when preparing a corpus that is useful for linguistic research, and the need to establish criteria and to take the decisions that this entails. We also explain how semi-automatic methods are applied and how the manual revision that guarantees the quality of the corpus is carried out. Once the corpus has been revised and labelled, it will be useful both for carrying out linguistic analyses and for improving or assessing the linguistic tools and resources, and also for channelling automatic study

    Corpusen etiketatze linguistikoa

    Get PDF
    In this article, we shall comment on the steps that have to be taken to give a linguistic label to a corpus and the difficulties that appear in this process. Our main objective was to highlight the importance of the labelling when preparing a corpus that is useful for linguistic research, and the need to establish criteria and to take the decisions that this entails. We also explain how semi-automatic methods are applied and how the manual revision that guarantees the quality of the corpus is carried out. Once the corpus has been revised and labelled, it will be useful both for carrying out linguistic analyses and for improving or assessing the linguistic tools and resources, and also for channelling automatic study

    Automatic Scansion of Poetry

    Get PDF
    146 p.Lan honetan poesiaren eskantsioa, hau da, poemetako egitura erritmikoaren erauztea, burutzen duguautomatikoki. Horretarako hizkuntzaren prozesamenduko ohiko teknikak erabili ditugu. Metodo batzukerregeletan oinarritutakoak dira, beste batzuk berriz, datuetan oinarritutakoak. Emaitzek iradokitzendute emaitzarik onenak datuetan oinarritutako sistemekin lortutakoak direla.1.- SarreraLehen zutabean dagoen poema osorik irakurrita, erritmo gorabeheratsu (TA-TAN-TA-TAN) konstantebat hauteman daiteke. Bigarren zutabeko lehen adibidea ahoz irakurriko bagenu, TA-RA-TAN modukosoinu bat hautemango genuke. Bigarren adibidea, aldiz, gaztelerazko hendekasilabo bat da, beraz,hamaika soinu unitateko lerroa dugu hura, azken aurreko silaba azentudunarekin. Baina, posible allitzateke horrelako egiturak antzematea hizkuntzaren erabateko ezagutza izan gabe? edo, are gehiago,hizkuntzari buruzko inolako informaziorik gabe, topa al daitezke halako patroiak? HizkuntzarenProzesamenduaren arloko erronkatzat har dezakegu poemetako patroi prosodikoen hautemate hau.Uneko hizkuntzari buruzko informaziorik izan gabe egitura prosodiko hau erauzteko, tradizio poetikoezberdinen azterketa tipologiko bat egitea beharrezkoa dela uste dugu. Bide horretan lehen pausuakemateko ikerlan hau aurkezten dugu, non poesiaren egitura prosodikoa automatikoki aztertzen dugunhizkuntzaren prozesamenduko algoritmo batzuk erabilita. Metodo hauek ingelesezko poemetanaplikatu ditugu emaitza onak lortuaz, eta eredu hoberenak gaztelerazko eta euskarazko corpus banatanaplikatu ditugu.Honako egitura jarraitzen du testu honek: Bigarren atalean eskantsioa definitzen dugu eta tradiziopoetiko ezberdinak aurkezten. Horretaz aparte, poesiaren analisi automatikoaren inguruan egin direnlan batzuk zerrendatzen ditugu. Hirugarren atala lanaren muina dela esan dezakegu, hor aurkeztenbaititugu lan honetarako erabili ditugun corpusak, metodoak eta egindako esperimentuak. Bukaeran,laugarren atalean, esperimentuen ondorioak jartzen ditugu.2.- EskantsioaPoema lerro batean eskantsioa egitea poema horren egitura erritmikoa erauztea da, azentuak, oinaketa errimak adierazita (Baldick, 2015). Lan honetan, ordea, lerro bakoitzaren azentu sekuentzia soilikinferitzen dugu.2.1 Poesia ingelesezHainbat liburu idatzi dira ingelesezko poesiaren prosodiaren inguruan, Halle eta Keyser (1971); Corn(1997); Fabb (1997) eta Steele (1999), adibidez. Ingelesezko poesian silabak oin izeneko multzoetanelkartzen dira. Multzo hauek hainbat silabez osatuta daude, baina ohikoenak bi edo hiru silabakomultzoak dira. Oin hauetako bakoitzak gutxienez gailentzen den silaba bat izango du, azentuatuakontsideratuko duguna. Egitura ohikoenak ianbikoa (bal-loon), trokaikoa (jun-gle), daktilikoa (ac-cident)eta anapestikoa (but I¿m tel-ling you Liz ) dira (Baldick, 2015).Metrika tradizionalaren arabera (Fussell, 1965; Steele, 1999), honelako oinez osatua egongo da lerrometriko oro. Lerroon luzera oin kopuruaren araberakoa izango da, beraz, trimetro batek hiru oin izangoditu, tetrametro batek lau, pentametro batek bost, etab. (hexametro, heptametro, . . . ). Ingelesezkopoesian metrika arruntena pentametro ianbikoa da, adibidez,oh change thy thought, that I may change my mind.non bost azentu argi nabaritzen diren eta TA-TAN multzo bakoitzak oin bat osatzen duen. Poemokorokorrean erregularrak diren arren, ohikoa da aldaketa txiki batzuk egitea egiturotan, helburu estetikoedota artistikoekin.Grant if thou wilt, thou art beloved of manyAurreko adibidearekin alderatuta, honetan hasieran TAN-TA-TA-TAN moduko soinu bat antzematenda. Aldaketa honi, literaturan bariazio trokaiko deitzen zaio. Gainera, lerroa ianbikoa izanda, bukaeraktonikoa behar luke izan, baina aldaketa ohikoa da silaba azentudun baten ostean silaba ez-azentudunbat gehitzea lerroaren bukaeran.2.2 Poesia gaztelaniazGaztelerazko poesian hainbat egitura metriko erabili izan dira (Quilis, 1984; Toma¿s, 1995; Caparro¿s,1999). Lan honetan, corpusaren eskuragarritasuna medio, garai espezifiko batean soilik egin duguenfasia, Espainiako Urrezko Aroan, alegia. Garai honetan gehien erabilitako metrika hendekasilaboaizan zen, lerro bakoitza hamaika silabez osaturik. Lerroetako azentu sekuentzia nahiko erregularra daeta normalean hamargarren silabak azentua darama. Beste silabek ere azentua izan dezakete, etanabarmendutako posizio horien arabera, hendekasilabo hauek hainbat motatakoak izan daitezke.Gaztelerazko poesiaren erronka handienetako bat silaba laburketen erabilera da, sinalefa gisa ezagutzendena, non hamaika silaba baino gehiago dituzten lerroak hamaika silabetan ahokatzen diren. Lan honenhelburua silaba bakoitzari azentu bat automatikoki esleitzea da, ondorioz, metodo erdi-automatiko baterabili dugu sinalefak dauden kasuetan lerroko silaba bakoitzari azentu balio bat esleitzeko.2.3 Poesia euskarazGaur egungo poesian, eta bereziki bertsolaritzan, neurri ezagunik bada, neurri txikiak eta handiak dira.Neurri txikiek lerro bakoitietan zazpi silaba izaten dituzte eta bikoitietan sei. Handiek, ordea, hamarsilaba eta zortzi silaba izaten dituzte lerro bikoiti eta bakoitietan, hurrenez hurren. Ez dira hauek, ordea,poesian erabiltzen diren neurri bakarrak. Idatzizko poesian ohikoa da zortziko ertainaren erabilera, nonlerro bakoitiek zortzi silaba dituzten eta bikoitiek zazpi. Neurri gehienetan lerro bikoitiek elkarrekinerrimatu behar dute.Ikerlan honetan azentuei erreparatzen diegu eta oraindik ez dago argi ea euskarazko poesian azentuekeragin nabarmena duten ala ez. Hainbat adituk idatzi izan dute euskal poesia eta haren neurkerariburuz, XVII. mendetik hasita. Hauek irakurtzean ikuspegi kontrajarriak topa daitezke. Batzuen arabera¿Oihenart eta aita Onaindia, kasu¿ euskal poesian erritmoak garrantzia du, eta poema oroknolabaiteko erritmoa izan behar du.¿Literatur guztiak dabez euren lege ta arauak, olerkigintzan bereziki; euskeran be naitaez izan bear.Lau gauza oneik beintzat gogotan artu bearrak doguz: 1) Igikera (ritmu); 2) etena (cesura); 3)neurria, ta 4) oskide edo azken amaitze bardin¿a (rima).¿Onaindia (1961)Beste batzuk, berriz, euskaraz azentuak eraginik ez duela dio. Nikolas Ormaetxea ¿Orixe¿ da horiesaten duen poeta bat.¿Para probar lo poco sensible que es el acento vasco, inte¿ntese colocar acentos gra¿ficos en las silabasque uno crea acentuadas, enca¿rguese el trabajo a cien personas de buen oido y en una pa¿gina que sesometa al ana¿lisis, se puede asegurar sin temor, que no habra¿ dos que coincidan.¿Ormaechea (1920)2.4 Eskantsio automatikoaAzken urteotan eskantsio automatikoaren inguruan lan ezberdinak egin dira. Lan hauetan, hitzsekuentzia bat sarrera gisa jasota, hauek jarraitzen duten azentu sekuentzia itzultzea izan ohi da burutubeharreko ataza. Itzulpen edo transdukzio prozesu hau hainbat modutara egin daiteke:¿ Erregeletan oinarrituta: Adituek ezarritako arauak jarraituta, hainbat ezaugarri linguistikokontutan izanda.¿ Datuetan oinarrituta: Etiketatutako informazioan oinarrituta, testutik azentuetarako patroiakautomatikoki ikasita. Ildo honi jarraitu diogu aurkezten dugun lan honetan.Urteotan aurkeztu diren lanen artean, arauetan oinarritutakoak Logan (1988); Gervas (2000); Hartman(2005); Plamondon (2006); McAleese (2007); Navarro-Colorado (2015) eta Agirrezabal et al. (2016b)ditugu. Geroz eta entzute handiagoa dute datuetan oinarritutako metodoek, etiketatutakoinformazioaren eskuragarritasuna dela eta. Hauen artean Hayward (1996); Greene et al. (2010); Hayeset al. (2012); Agirrezabal et al. (2016a) eta Estes eta Hench (2016) azpimarratu ditzakegu.3 Corpusak, metodoak eta esperimentuak3.1 CorpusakDatuetan oinarritutako sistemen garapenerako edo erregeletan oinarritutako sistemen ebaluaziorakodatu etiketatuak izatea ezinbestekoa da. Horretarako hiru corpus erabiltzen ditugu, ingelesezko bat,gaztelerazko bat eta euskarazko beste bat. Ingelesezko lanetarako Virginiako unibertsitatean garatutako¿For Better For Verse¿ proiektuaren (Tucker, 2011) emaitza izan den poesia corpusa erabili dugu.Corpus honetan 78 poema daude eta guztira 1.100 poema lerro. Eskantsioa egiterako orduan, lerrobatzuk hainbat analisi izan ditzakete, eta hauek corpusean horrela daude (hainbat aukerarekin).Gaztelerazko esperimentuetarako, lehenago aipatu gisa, Espainiako Urrezko Aroko corpus bat erabilidugu (Navarro-Colorado et al., 2016). Etiketatutako corpusa 135 sonetoz osatuta dago eta gutxigorabehera 2.000 lerro ditu. Euskarazko esperimentuetarako, Patri Urkizuren ¿Poesía vasca: Antologíabilingüe¿ bilduma oinarri hartuta, corpus bat bildu eta eskuz etiketatu dugu. Corpus honek 38 poemaditu eta 2000 lerro inguru.3.2 MetodoakLehen esperimentuak ingelesez egin ditugu eta horiek oinarritzat hartuta, metodo hoberenak gazteleraraeta euskarara estrapolatu ditugu. Lehenik eta behin, erregeletan oinarritutako sistema bat garatu duguinglesezko poesia analizatzeko. Horren ondoren, datuetan oinarritutako tekniketara egin dugu jauzi.Hizkuntzaren prozesamenduan ohikoak diren teknikak aplikatu ditugu datuotatik patroiak ikasi etaaurretik ikusi gabeko poemetan aplikatu ahal izateko. Erabili ditugun teknikak hiru multzotan sailkaditzakegu. Batetik sailkapen arrunta egiten dutenak, sailkapen egituratua egiten dutenak eta sareneuronaletan oinarritutako teknikak.Erabilitako tekniketatik hoberenak perzeptroia (Perceptron) (Freund eta Schapire, 1999), Markoveneredu ezkutuak (Hidden Markov Models) (Rabiner, 1989), ausazko eremu baldintzatuak (ConditionalRandom Fields) (Lafferty et al., 2001) edota epe laburreko memoria luzedun sare neuronalerrekurrenteak (Recurrent Neural Networks with Long Short-Term Memory) (Lample et al., 2016) dira.Teknika eta konfigurazio ezberdinak ebaluatzeko, metodo ezberdinak erabil daitezke. Datu kopuruaoso handia ez denean, gure kasuan bezala, balidazio gurutzatua (K-fold Cross-Validation) erabiltzea daohikoena. Balidazio gurutzatuan datu multzoa k zatitan banatzen da. Behin zati horiek eginda, k ¿ 1zati erabiltzen dira eredu bat ikasteko eta ebaluaziorako bat gordetzen da. Hau k aldiz egiten da, etaasmatze-tasaren batazbestekoa itzultzen da. Gure kasuan, 10 zatitan banatu dugu gure datu-multzoa.3.3 EbaluazioaOndorengo taulan, datuetan oinarritutako metodo hoberenen asmatze-tasak ageri dira. Asmatze-tasahauek silaba mailan kalkulatzen dira.Ondorengo taulan, metodoek lerro mailan lortutako emaitzak agertzen dira.Emaitzen taulan ikus daitekeen moduan, sare neuronaletan oinarritutako sistemek ematen dituzteemaitza onenak, bai ingelesez eta baita gazteleraz ere. Taula horretatik hainbat ondorio plazaraditzakegu.4. OndorioakAgirrezabal et al. (2016a) lanean adierazi genuen Perzeptroiean eta CRFetan erabiltzen ditugun 10atributuak poesiaren analisi prosodikorako egokiak ziren atributuak zirela, bereziki interesgarriakhizkuntzarekiko agnostikoak ziruditelako. Esperimentuotan, gazteleraz probak egin ostean, ikusi duguingelesez nahiko emaitza onak ematen dituztela haien sinpletasuna kontutan hartuta. Gaztelerazkodatuetan, ordea, emaitzak ez dira horren onak izan eta horrek iradokitzen digu atributuok ez direlanahikoak hizkuntzarekiko independenteak diren sistemak eraikitzeko. Dena den, hau baieztatzekohizkuntza gehiagorekin egin beharko genituzke esperimentuok.Emaitzak aztertuta, hitz mugak poemetako egitura prosodikoaren inferentzian garrantzi handia duela ondorioztatzen dugu, bereziki gazteleraz. Horren justifikazioa izan daiteke ingelesezko hitzek batazbestean silaba gutxiago dituztela gazteleraz baino, beheko irudian ikus daitekeen bezalaxe.Gainera, badirudi sare neuronaletan oinarritutako ereduek hitzen egitura fonologikoa ondo modelatzendutela, baina hau enpirikoki frogatzeko esperimentu gehiago beharko lirateke

    24th Nordic Conference on Computational Linguistics (NoDaLiDa)

    Get PDF

    IberSPEECH 2020: XI Jornadas en Tecnología del Habla and VII Iberian SLTech

    Get PDF
    IberSPEECH2020 is a two-day event, bringing together the best researchers and practitioners in speech and language technologies in Iberian languages to promote interaction and discussion. The organizing committee has planned a wide variety of scientific and social activities, including technical paper presentations, keynote lectures, presentation of projects, laboratories activities, recent PhD thesis, discussion panels, a round table, and awards to the best thesis and papers. The program of IberSPEECH2020 includes a total of 32 contributions that will be presented distributed among 5 oral sessions, a PhD session, and a projects session. To ensure the quality of all the contributions, each submitted paper was reviewed by three members of the scientific review committee. All the papers in the conference will be accessible through the International Speech Communication Association (ISCA) Online Archive. Paper selection was based on the scores and comments provided by the scientific review committee, which includes 73 researchers from different institutions (mainly from Spain and Portugal, but also from France, Germany, Brazil, Iran, Greece, Hungary, Czech Republic, Ucrania, Slovenia). Furthermore, it is confirmed to publish an extension of selected papers as a special issue of the Journal of Applied Sciences, “IberSPEECH 2020: Speech and Language Technologies for Iberian Languages”, published by MDPI with fully open access. In addition to regular paper sessions, the IberSPEECH2020 scientific program features the following activities: the ALBAYZIN evaluation challenge session.Red Española de Tecnologías del Habla. Universidad de Valladoli

    EVALITA Evaluation of NLP and Speech Tools for Italian - December 17th, 2020

    Get PDF
    Welcome to EVALITA 2020! EVALITA is the evaluation campaign of Natural Language Processing and Speech Tools for Italian. EVALITA is an initiative of the Italian Association for Computational Linguistics (AILC, http://www.ai-lc.it) and it is endorsed by the Italian Association for Artificial Intelligence (AIxIA, http://www.aixia.it) and the Italian Association for Speech Sciences (AISV, http://www.aisv.it)

    On the Combination of Game-Theoretic Learning and Multi Model Adaptive Filters

    Get PDF
    This paper casts coordination of a team of robots within the framework of game theoretic learning algorithms. In particular a novel variant of fictitious play is proposed, by considering multi-model adaptive filters as a method to estimate other players’ strategies. The proposed algorithm can be used as a coordination mechanism between players when they should take decisions under uncertainty. Each player chooses an action after taking into account the actions of the other players and also the uncertainty. Uncertainty can occur either in terms of noisy observations or various types of other players. In addition, in contrast to other game-theoretic and heuristic algorithms for distributed optimisation, it is not necessary to find the optimal parameters a priori. Various parameter values can be used initially as inputs to different models. Therefore, the resulting decisions will be aggregate results of all the parameter values. Simulations are used to test the performance of the proposed methodology against other game-theoretic learning algorithms.</p

    EVALITA Evaluation of NLP and Speech Tools for Italian - December 17th, 2020

    Get PDF
    Welcome to EVALITA 2020! EVALITA is the evaluation campaign of Natural Language Processing and Speech Tools for Italian. EVALITA is an initiative of the Italian Association for Computational Linguistics (AILC, http://www.ai-lc.it) and it is endorsed by the Italian Association for Artificial Intelligence (AIxIA, http://www.aixia.it) and the Italian Association for Speech Sciences (AISV, http://www.aisv.it)
    corecore