3 research outputs found

    Coreference resolution in Latvian

    No full text
    Koreferenču noteikšana ir aktuāla problēma dabiskās valodas apstrādes (NLP) pētījumos. Pēdējos gados ir vērojams ievērojams progress ne tikai koreferenču noteikšanā angļu valodai, bet arī citām valodām, kurām nav tik daudz pieejamo lingvistisko resursu. Darba mērķis ir izveidot pamatu tālākiem pētījumiem koreferenču noteikšanai latviešu valodai. Darbs ietver anotēšanas vadlīniju un manuāli anotēta koreferenču korpusa izstrādi latviešu valodā. Teorētiskajā daļā ir apskatītas dažādas pieejas koreferenču noteikšanai. Darba galvenais rezultāts ir likumos bāzēta koreferenču sistēma latviešu valodai, kas sasniedz 58,0% F-mēru (76,5%, izmantojot manuāli anotētus pieminējumus). Darbs apraksta pašreizējos mašīnmācīšanās eksperimentus un centienus uzlabot nosaukto entītiju atpazīšanas veiktspēju. Atslēgvārdi: dabiskās valodas apstrāde, informācijas izgūšana, koreferenču noteikšana, nosaukto entītiju atpazīšanaCoreference resolution in Latvian Coreference resolution is a current problem in natural language processing (NLP) research. Over the last years considerable progress has been made not only in coreference resolution for English but also for other languages with much less linguistic resources available. The aim of this work is to create a baseline for further research in coreference resolution for Latvian. The work includes creation of annotation guidelines and manually annotated coreference corpus in Latvian. In theoretical part different approaches for coreference resolution are considered. The main result of this work is the rule based coreference system that currently reaches 58.0% F-score (76.5% using manually annotated mentions). This paper also describes current machine learning experiments and efforts to improve the performance of a named entity recognizer. Keywords: natural language processing, information extraction, coreference resolution, named entity recognitio

    Dictionary and Thesaurus of Latvian - Tezaurs.lv (ELEXIS)

    No full text
    Tēzaurs.lv: An extensive dictionary and thesaurus of Latvian, comprising more than 320,000 lexical entries, including multi-word units. Compiled and edited based on more than 300 sources. Provides detailed morphological information; being extented into a Latvian WordNet
    corecore