8 research outputs found

    Aditza+izena unitate fraseologikoak gaztelaniatik euskarara: azterketa eta tratamendu konputazionala. 22

    Get PDF
    277 p.+156p (anexos)Unitate Fraseologikoak (UFak) hizkuntzek bere-bereak dituzten hitz-konbinazio idiomatikoak dira. Hizkuntzaren Prozesamenduko (HPko) tresnek kalitatezko emaitzak izan ditzaten, beharrezkoa da halakoak ondo tratatzea, baina lan horrek hainbat zailtasun ditu; besteak beste, hitzez hitzeko itzulgarritasun eza. Tesi-lan honetan, aditza+izena motako UFen azterketa linguistiko bat egin dugu, halakoek HPren alorrean sortzen dituzten bi arazo garrantzitsuri aurre egiten laguntzeko: batetik, corpusetan UFak automatikoki identifikatzeari, eta bestetik, UF horiek gaztelaniaren eta euskararen artean automatikoki itzultzeari. Azterketa linguistikotik ateratako informazioa bi atazetarako baliatu dugu, eta oso emaitza onak lortu ditugu bietan.Horrez gain, hizkuntza-baliabideen sorkuntzan ere, bi ekarpen egin ditugu tesi-lan honen baitan. Lehena, landutako UFak, ordainak eta haien inguruko informazio linguistikoa biltzen dituen datu-base bat sortzea eta sarean eskuragarri jartzea: Konbitzul. Eta bigarrena, euskarazko aditz-UFak corpus batean etiketatzea, PARSEME proiektu europarrak sorturiko irizpideei jarraituz; corpus hori ere publiko egin da, irizpide berberei jarraituz landutako beste 19 hizkuntzatako corpusekin batera

    Itzulpen automatikorako gaztelania-euskara patroiak : lehen urratsak

    Get PDF
    [EU]Lan honetan, adibideetan oinarritutako patroi batzuk sortu ditugu, erregeletan oinarritutako itzulpen-sistema automatiko bat hobetzeko asmoz. Patroirik erabilgarrienak emango zituzten adibideak bakarrik hartzeko, euren erabilera-maiztasunari eta itzulpen automatikoen egokitasunari erreparatu diegu. Ondoren, adibideetako entitate-izenak eta zenbakiak orokortu ditugu, elementu horiek aldatuta ere, patroiak erabili ahal izateko

    Aditza+izena unitate fraseologikoak gaztelaniatik euskarara: azterketa eta tratamendu konputazionala. 22

    Get PDF
    277 p.+156p (anexos)Unitate Fraseologikoak (UFak) hizkuntzek bere-bereak dituzten hitz-konbinazio idiomatikoak dira. Hizkuntzaren Prozesamenduko (HPko) tresnek kalitatezko emaitzak izan ditzaten, beharrezkoa da halakoak ondo tratatzea, baina lan horrek hainbat zailtasun ditu; besteak beste, hitzez hitzeko itzulgarritasun eza. Tesi-lan honetan, aditza+izena motako UFen azterketa linguistiko bat egin dugu, halakoek HPren alorrean sortzen dituzten bi arazo garrantzitsuri aurre egiten laguntzeko: batetik, corpusetan UFak automatikoki identifikatzeari, eta bestetik, UF horiek gaztelaniaren eta euskararen artean automatikoki itzultzeari. Azterketa linguistikotik ateratako informazioa bi atazetarako baliatu dugu, eta oso emaitza onak lortu ditugu bietan.Horrez gain, hizkuntza-baliabideen sorkuntzan ere, bi ekarpen egin ditugu tesi-lan honen baitan. Lehena, landutako UFak, ordainak eta haien inguruko informazio linguistikoa biltzen dituen datu-base bat sortzea eta sarean eskuragarri jartzea: Konbitzul. Eta bigarrena, euskarazko aditz-UFak corpus batean etiketatzea, PARSEME proiektu europarrak sorturiko irizpideei jarraituz; corpus hori ere publiko egin da, irizpide berberei jarraituz landutako beste 19 hizkuntzatako corpusekin batera

    Itzulpen automatikorako gaztelania-euskara patroiak : lehen urratsak

    No full text
    [EU]Lan honetan, adibideetan oinarritutako patroi batzuk sortu ditugu, erregeletan oinarritutako itzulpen-sistema automatiko bat hobetzeko asmoz. Patroirik erabilgarrienak emango zituzten adibideak bakarrik hartzeko, euren erabilera-maiztasunari eta itzulpen automatikoen egokitasunari erreparatu diegu. Ondoren, adibideetako entitate-izenak eta zenbakiak orokortu ditugu, elementu horiek aldatuta ere, patroiak erabili ahal izateko

    L'évolution des gens d'affaires franco-ontariens.

    Get PDF
    Multiword Expressions (MWEs) are idiosyncratic combinations of words which pose important challenges to Natural Language Processing. Some kinds of MWEs, such as verbal ones, are particularly hard to identify in corpora, due to their high degree of morphosyntactic flexibility. This paper describes a linguistically motivated method to gather detailed information about verb+noun MWEs (VNMWEs) from corpora. Although the main focus of this study is Spanish, the method is easily adaptable to other languages. Monolingual and parallel corpora are used as input, and data about the morphosyntactic variability of VNMWEs is extracted. This information is then tested in an identification task, obtaining an F score of 0.52, which is considerably higher than related work.This work was funded by the Basque Government, who qualified the IXA research group (of which the authors of this article are members) as an A type research group (IT1343-19). It is also part of the project entitled "MODENA: advanced neural modeling for high-quality translation" (KK-2018/00087)

    Edition 1.1 of the PARSEME Shared Task on automatic identification of verbal multiword expressions

    No full text
    This paper describes the PARSEME Shared Task 1.1 on automatic identification of verbal multiword expressions. We present the annotation methodology, focusing on changes from last year's shared task. Novel aspects include enhanced annotation guidelines, additional annotated data for most languages, corpora for some new languages, and new evaluation settings. Corpora were created for 20~languages, which are also briefly discussed. We report organizational principles behind the shared task and the evaluation metrics employed for ranking. The 17~participating systems, their methods and obtained results are also presented and analysed
    corecore