9 research outputs found
Aditza+izena unitate fraseologikoak gaztelaniatik euskarara: azterketa eta tratamendu konputazionala. 22
277 p.+156p (anexos)Unitate Fraseologikoak (UFak) hizkuntzek bere-bereak dituzten hitz-konbinazio idiomatikoak dira. Hizkuntzaren Prozesamenduko (HPko) tresnek kalitatezko emaitzak izan ditzaten, beharrezkoa da halakoak ondo tratatzea, baina lan horrek hainbat zailtasun ditu; besteak beste, hitzez hitzeko itzulgarritasun eza. Tesi-lan honetan, aditza+izena motako UFen azterketa linguistiko bat egin dugu, halakoek HPren alorrean sortzen dituzten bi arazo garrantzitsuri aurre egiten laguntzeko: batetik, corpusetan UFak automatikoki identifikatzeari, eta bestetik, UF horiek gaztelaniaren eta euskararen artean automatikoki itzultzeari. Azterketa linguistikotik ateratako informazioa bi atazetarako baliatu dugu, eta oso emaitza onak lortu ditugu bietan.Horrez gain, hizkuntza-baliabideen sorkuntzan ere, bi ekarpen egin ditugu tesi-lan honen baitan. Lehena, landutako UFak, ordainak eta haien inguruko informazio linguistikoa biltzen dituen datu-base bat sortzea eta sarean eskuragarri jartzea: Konbitzul. Eta bigarrena, euskarazko aditz-UFak corpus batean etiketatzea, PARSEME proiektu europarrak sorturiko irizpideei jarraituz; corpus hori ere publiko egin da, irizpide berberei jarraituz landutako beste 19 hizkuntzatako corpusekin batera
Itzulpen automatikorako gaztelania-euskara patroiak : lehen urratsak
[EU]Lan honetan, adibideetan oinarritutako patroi batzuk sortu ditugu,
erregeletan oinarritutako itzulpen-sistema automatiko bat hobetzeko
asmoz. Patroirik erabilgarrienak emango zituzten adibideak bakarrik
hartzeko, euren erabilera-maiztasunari eta itzulpen automatikoen egokitasunari
erreparatu diegu. Ondoren, adibideetako entitate-izenak
eta zenbakiak orokortu ditugu, elementu horiek aldatuta ere, patroiak
erabili ahal izateko
Aditza+izena unitate fraseologikoak gaztelaniatik euskarara: azterketa eta tratamendu konputazionala. 22
277 p.+156p (anexos)Unitate Fraseologikoak (UFak) hizkuntzek bere-bereak dituzten hitz-konbinazio idiomatikoak dira. Hizkuntzaren Prozesamenduko (HPko) tresnek kalitatezko emaitzak izan ditzaten, beharrezkoa da halakoak ondo tratatzea, baina lan horrek hainbat zailtasun ditu; besteak beste, hitzez hitzeko itzulgarritasun eza. Tesi-lan honetan, aditza+izena motako UFen azterketa linguistiko bat egin dugu, halakoek HPren alorrean sortzen dituzten bi arazo garrantzitsuri aurre egiten laguntzeko: batetik, corpusetan UFak automatikoki identifikatzeari, eta bestetik, UF horiek gaztelaniaren eta euskararen artean automatikoki itzultzeari. Azterketa linguistikotik ateratako informazioa bi atazetarako baliatu dugu, eta oso emaitza onak lortu ditugu bietan.Horrez gain, hizkuntza-baliabideen sorkuntzan ere, bi ekarpen egin ditugu tesi-lan honen baitan. Lehena, landutako UFak, ordainak eta haien inguruko informazio linguistikoa biltzen dituen datu-base bat sortzea eta sarean eskuragarri jartzea: Konbitzul. Eta bigarrena, euskarazko aditz-UFak corpus batean etiketatzea, PARSEME proiektu europarrak sorturiko irizpideei jarraituz; corpus hori ere publiko egin da, irizpide berberei jarraituz landutako beste 19 hizkuntzatako corpusekin batera
When minoritized languages encounter MT: perceptions and expectations of the Basque community
Machine translation (MT) is improving even for low-resource minoritized languages such as Basque, for which free online engines are available. However, the level of adoption and common practices involving the technology are unknown, even though it has the potential to disrupt a carefully planned Basque language revitalization and sustainability process. To shed light on MT usage habits and perceptions among the Basque community, we report on the results of a survey of language specialists and general users, and a focus group with professional translators and interpreters. The data shows that MT is already becoming more popular among users of all backgrounds and that, overall, the attitude towards the technology is positive, which might result in increased use in the future. However, participants express concern about the impact MT will have on the development of Basque. The results call for further research on the language impact of MT and MT literacy initiatives
Itzulpen automatikorako gaztelania-euskara patroiak : lehen urratsak
[EU]Lan honetan, adibideetan oinarritutako patroi batzuk sortu ditugu,
erregeletan oinarritutako itzulpen-sistema automatiko bat hobetzeko
asmoz. Patroirik erabilgarrienak emango zituzten adibideak bakarrik
hartzeko, euren erabilera-maiztasunari eta itzulpen automatikoen egokitasunari
erreparatu diegu. Ondoren, adibideetako entitate-izenak
eta zenbakiak orokortu ditugu, elementu horiek aldatuta ere, patroiak
erabili ahal izateko
L'évolution des gens d'affaires franco-ontariens.
Multiword Expressions (MWEs) are idiosyncratic combinations of words which pose important challenges to Natural Language Processing. Some kinds of MWEs, such as verbal ones, are particularly hard to identify in corpora, due to their high degree of morphosyntactic flexibility. This paper describes a linguistically motivated method to gather detailed information about verb+noun MWEs (VNMWEs) from corpora. Although the main focus of this study is Spanish, the method is easily adaptable to other languages. Monolingual and parallel corpora are used as input, and data about the morphosyntactic variability of VNMWEs is extracted. This information is then tested in an identification task, obtaining an F score of 0.52, which is considerably higher than related work.This work was funded by the Basque Government, who qualified the IXA research group (of which the authors of this article are members) as an A type research group (IT1343-19). It is also part of the project entitled "MODENA: advanced neural modeling for high-quality translation" (KK-2018/00087)
Edition 1.1 of the PARSEME Shared Task on automatic identification of verbal multiword expressions
This paper describes the PARSEME Shared Task 1.1 on automatic identification of verbal multiword expressions. We present the annotation methodology, focusing on changes from last year's shared task. Novel aspects include enhanced annotation guidelines, additional annotated data for most languages, corpora for some new languages, and new evaluation settings. Corpora were created for 20~languages, which are also briefly discussed. We report organizational principles behind the shared task and the evaluation metrics employed for ranking. The 17~participating systems, their methods and obtained results are also presented and analysed