7 research outputs found

    CLIR teknikak baliabide urriko hizkuntzetarako

    Get PDF
    152 p.Hizkuntza arteko informazioaren berreskurapenerako sistema bat garatxean kontsulta itzultzea da hizkuntzaren mugari aurre egiteko hurbilpenik erabiliena. Kontsulta itzultzeko estrategia arrakastatsuenak itzulpen automatikoko sistem aedo corpus paraleloetan oinarritzen dira, baina baliabide hauek urriak dira baliabide urriko hizkuntzen eszenatokietan. Horrelako egoeretan egokiagoa litzateke eskuragarriago diren baliabideetan oinarritutako komtsulta itzultzeko estrategia bat. Tesi honetan frogatu nahi dugu baliabide nagusi horiek hiztegi elebiduna eta horren osagarri diren corpus konparagarriak eta kontsulta-saioak izan daitezkeela. // Hizkuntza arteko informazioaren berreskurapenerako sistema bat garatxean kontsulta itzultzea da hizkuntzaren mugari aurre egiteko hurbilpenik erabiliena. Kontsulta itzultzeko estrategia arrakastatsuenak itzulpen automatikoko sistem aedo corpus paraleloetan oinarritzen dira, baina baliabide hauek urriak dira baliabide urriko hizkuntzen eszenatokietan. Horrelako egoeretan egokiagoa litzateke eskuragarriago diren baliabideetan oinarritutako komtsulta itzultzeko estrategia bat. Tesi honetan frogatu nahi dugu baliabide nagusi horiek hiztegi elebiduna eta horren osagarri diren corpus konparagarriak eta kontsulta-saioak izan daitezkeela

    A Generalized Constraint Approach to Bilingual Dictionary Induction for Low-Resource Language Families

    Get PDF
    The lack or absence of parallel and comparable corpora makes bilingual lexicon extraction a difficult task for low-resource languages. The pivot language and cognate recognition approaches have been proven useful for inducing bilingual lexicons for such languages. We propose constraint-based bilingual lexicon induction for closely related languages by extending constraints from the recent pivot-based induction technique and further enabling multiple symmetry assumption cycle to reach many more cognates in the transgraph. We fur- ther identify cognate synonyms to obtain many-to-many translation pairs. This article utilizes four datasets: one Austronesian low-resource language and three Indo-European high-resource languages. We use three constraint-based methods from our previous work, the Inverse Consultation method and translation pairs generated from Cartesian product of input dictionaries as baselines. We evaluate our result using the met- rics of precision, recall, and F-score. Our customizable approach allows the user to conduct cross validation to predict the optimal hyperparameters (cognate threshold and cognate synonym threshold) with various combination of heuristics and number of symmetry assumption cycles to gain the highest F-score. Our pro- posed methods have statistically significant improvement of precision and F-score compared to our previous constraint-based methods. The results show that our method demonstrates the potential to complement other bilingual dictionary creation methods like word alignment models using parallel corpora for high-resource languages while well handling low-resource languages

    Bilingual dictionary generation and enrichment via graph exploration

    Get PDF
    In recent years, we have witnessed a steady growth of linguistic information represented and exposed as linked data on the Web. Such linguistic linked data have stimulated the development and use of openly available linguistic knowledge graphs, as is the case with the Apertium RDF, a collection of interconnected bilingual dictionaries represented and accessible through Semantic Web standards. In this work, we explore techniques that exploit the graph nature of bilingual dictionaries to automatically infer new links (translations). We build upon a cycle density based method: partitioning the graph into biconnected components for a speed-up, and simplifying the pipeline through a careful structural analysis that reduces hyperparameter tuning requirements. We also analyse the shortcomings of traditional evaluation metrics used for translation inference and propose to complement them with new ones, both-word precision (BWP) and both-word recall (BWR), aimed at being more informative of algorithmic improvements. Over twenty-seven language pairs, our algorithm produces dictionaries about 70% the size of existing Apertium RDF dictionaries at a high BWP of 85% from scratch within a minute. Human evaluation shows that 78% of the additional translations generated for dictionary enrichment are correct as well. We further describe an interesting use-case: inferring synonyms within a single language, on which our initial human-based evaluation shows an average accuracy of 84%. We release our tool as free/open-source software which can not only be applied to RDF data and Apertium dictionaries, but is also easily usable for other formats and communities.This work was partially funded by the Prêt-à-LLOD project within the European Union’s Horizon 2020 research and innovation programme under grant agreement no. 825182. This article is also based upon work from COST Action CA18209 NexusLinguarum, “European network for Web-centred linguistic data science”, supported by COST (European Cooperation in Science and Technology). It has been also partially supported by the Spanish projects TIN2016-78011-C4-3-R and PID2020-113903RB-I00 (AEI/FEDER, UE), by DGA/FEDER, and by the Agencia Estatal de Investigación of the Spanish Ministry of Economy and Competitiveness and the European Social Fund through the “Ramón y Cajal” program (RYC2019-028112-I)

    Hiztegigintza elebiduna: Euskara-Alemana

    Get PDF
    506 p., 44 p.Tesi honetan, azkenengo bost urteotan burutu ditugun ikerketa-lanak aurkezten ditugu. Euskarazko eta alemanezko hiztegigintza elebiduna da jorratutako ildo guztiek elkarrekin duten gaia. Hiztegi berria sortzea zen asmoa, euskara-alemanezko hiztegi elektronikoa, hain zuzen ere. Asmoa gauzatzeko bidean, Hiztegigintza Historikoan, Metalexikografian, Hizkuntzalaritza Konputazionalean eta Hiztegigintza Aplikatuan kokatuko genituzkeen egin ditugun urratsen berri ematen dugu. Lehenik, gaiari ikuspuntu diakroniko batetik hurbiltzen gara. Alemana-euskara konbinazioan gaur arte ditugun lanak aztertzen ditugu, horien artean XIX. mendeko hiru lan, eta 1968, 1999 eta 2007ko hiztegi bana. Tesiaren bigarren atalean, euskararekiko eta alemanarekiko hiztegigintza elektronikoan dugun artearen egoera dugu hizpide, aro elektronikoaren aurreko zenbait lan ere kontuan hartuz. Hainbat paperezko zein formatu elektronikoan datozen hiztegitako laginak ikusi eta elkarrekin konparatzen ditugu. Bigarren atalean garatutako irizpideetatik abiatuz, proposamen zehatz batera igarotzen gara hirugarren atalean: alemana eta euskara lotzen dituen EuDeLex hiztegi elektroniko elebiduna egituratzeari ekiten diogu, makroegitura eta mikroegitura proposatuz, XML-egitura zein argitaratzeko formatuko hiztegi gisa.Laugarren atalean, EuDeLex hiztegia aleman-euskarazko itzulpen-ordainez osatzeko jokabideak dira gaia. Aleman-euskarazko itzulpen-ordainen bikoteak lortzeko metodo sorta ezartzen dugu hizkuntzalaritza konputazionaleko lankideekin elkarlanean, eta aurretik eskuz landutako EuDeLex hiztegiko datuak baliatzen ditugu metodo erdi-automatikoen eta automatikoen bitartez sorturiko euskaraz-alemanezko glosario elebidunen egokitasuna ebaluatzeko. Euskara-alemanezko corpus paraleloen, WordNet eta EDBL HAP-alorreko baliabideen eta bi hizkuntzetako Wikipedia entziklopedien gainean, besteak beste, burutzen ditugu esperimentu konputazionalak. Aplikaturiko metodoek hiztegia ekoizteko prozesuan eskuzko lanak modu eraginkorrean murrizten laguntzen dutela ondorioztatzen dugu
    corecore