9 research outputs found

    A Prague Markup Language profile for the SemTi-Kamols grammar model

    Get PDF
    Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. Editors: Bolette Sandford Pedersen, Gunta Nešpore and Inguna Skadiņa. NEALT Proceedings Series, Vol. 11 (2011), 303-306. © 2011 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/1695

    Contents

    Get PDF
    Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. Editors: Bolette Sandford Pedersen, Gunta Nešpore and Inguna Skadiņa. NEALT Proceedings Series, Vol. 11 (2011), iii-vii. © 2011 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/16955

    Promocijas darbs

    Get PDF
    Elektroniskā versija nesatur pielikumusPromocijas darbs veltīts hibrīda latviešu valodas gramatikas modeļa izstrādei un transformēšanai uz Universālo atkarību (Universal Dependencies, UD) modeli. Promocijas darbā ir aizsākts jauns latviešu valodas izpētes virziens – sintaktiski marķētos tekstos balstīti pētījumi. Darba rezultātā ir izstrādāts un aprobēts fundamentāls, latviešu valodai iepriekš nebijis valodas resurss – mašīnlasāms sintaktiski marķēts korpuss 17 tūkstošu teikumu apmērā. Teikumi ir marķēti atbilstoši diviem dažādiem sintaktiskās marķēšanas modeļiem – darbā radītajam frāžu struktūru un atkarību gramatikas hibrīdam un starptautiski aprobētajam UD modelim. Izveidotais valodas resurss publiski pieejams gan lejuplādei, gan tiešsaistes meklēšanai abos iepriekš minētajos marķējuma veidos. Pētījuma laikā radīta rīku kopa un latviešu valodas sintaktiski marķētā korpusa veidošanai vajadzīgā infrastruktūra. Tajā skaitā tika definēti plašam valodas pārklājumam nepieciešamie LU MII eksperimentālā hibrīdā gramatikas modeļa paplašinājumi. Tāpat tika analizētas iespējas atbilstoši hibrīdmodelim marķētus datus pārveidot uz atkarību modeli, un tika radīts atvasināts UD korpuss. Izveidotais sintaktiski marķētais korpuss ir kalpojis par pamatu, lai varētu radīt augstas precizitātes (91%) parsētājus latviešu valodai. Savukārt dalība UD iniciatīvā ir veicinājusi latviešu valodas un arī citu fleksīvu valodu resursu starptautisko atpazīstamību un fleksīvām valodām piemērotāku rīku izveidi datorlingvistikā – pētniecības jomā, kuras vēsturiskā izcelsme pamatā meklējama darbā ar analītiskajām valodām. Atslēgvārdi: sintakses korpuss, Universal Dependencies, valodu tehnoloģijasThe given doctoral thesis describes the creation of a hybrid grammar model for the Latvian language, as well as its subsequent conversion to a Universal Dependencies (UD) grammar model. The thesis also lays the groundwork for Latvian language research through syntactically annotated texts. In this work, a fundamental Latvian language resource was developed and evaluated for the first time – a machine-readable treebank of 17 thousand syntactically annotated sentences. The sentences are annotated according to two syntactic annotation models: the hybrid grammar model developed in the thesis, and the internationally recognised UD model. Both annotated versions of the treebank are publicly available for downloading or querying online. Over the course of the study, a set of tools and infrastructure necessary for treebank creation and maintenance were developed. The language coverage of the IMCS UL experimental hybrid model was extended, and the possibilities were defined for converting data annotated according to the hybrid grammar model to the dependency grammar model. Based on this work, a derived UD treebank was created. The resulting treebank has served as a basis for the development of high accuracy (91%) Latvian language parsers. Furthermore, the participation in the UD initiative has promoted the international recognition of Latvian and other inflective languages and the development of better-fitted tools for inflective language processing in computational linguistics, which historically has been more oriented towards analytic languages. Keywords: treebank, Universal Dependencies, language technologie

    Conference Program

    Get PDF
    Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011. Editors: Bolette Sandford Pedersen, Gunta Nešpore and Inguna Skadiņa. NEALT Proceedings Series, Vol. 11 (2011), xii-xvii. © 2011 The editors and contributors. Published by Northern European Association for Language Technology (NEALT) http://omilia.uio.no/nealt . Electronically published at Tartu University Library (Estonia) http://hdl.handle.net/10062/16955

    An integrated system for the development of Latvian Treebank

    No full text
    Darbā aplūkota sintaktiski anotētu korpusu (treebank) izstrādes problemātika ar mērķi radīt stabilu tehnoloģisko pamatu sintaktiski anotēta latviešu valodas korpusa izstrādei. Darbā apskatīti klasiskie sintaktiskās analīzes (reprezentācijas) modeļi — vārdkopu struktūru un atkarību gramatikas — un SemTi-Kamola hibrīdais gramatikas modelis valodām ar relatīvi brīvu vārdu secību. Darbā analizēta pasaulē lielāko sintaktiski anotēto korpusu pieredze un formāti, īpašu uzmanību pievēršot vadošā atkarību pieejā balstītā korpusa — Prāgas atkarību korpusa (Prague Dependency Treebank — PDT) — vairāklīmeņu anotāciju struktūrai. Darbā izstrādāts SemTi-Kamola gramatikas modeļa paplašinājums, kas nodrošina sintaktiski neierobežotu teikumu anotēšanu. Izveidots PML (Prague Markup Language) profils SemTi-Kamols datu aprakstīšanai starptautiski atzītā mašīnlasāmā formā. Izstrādātais XML balstītais datu formāts ir integrēts ar SemTi-Kamola automātiskās sintaktiskās analīzes rīkiem un vizuālo kokveida datu struktūru redaktoru TrEd, kas ir izmantots PDT izveidē. Tādejādi ir radīts tehnoloģiskais un metodoloģiskais pamats latviešu valodas sintaktiski anotēta korpusa radīšanai — vide (integrētu rīku un formātu kopums), kas ļauj tekstus formāli anotēt atbilstoši SemTi-Kamols modelim, bet neprasa specifiskas tehnoloģiju zināšanas no lietotāja (valodnieka). Izstrādātā vide tiek sekmīgi pielietota praksē — izveidotas anotācijas apmēram 200 teikumiem.The problem of developing syntactically annotated text corpus (treebank) is considered in this work. The aim of this work is to develop a sound technological base for developing Latvian Treebank. General approaches of the syntactic analysis are described — the phrase structure approach and the dependency approach. The SemTi-Kamols hybrid dependency based grammar for languages with rather free word order is also described. The experience of world’s largest treebanks, particularly Prague Dependency Treebank (PDT) and its multi-level annotation structure, is analysed as well. An extension of the SemTi-Kamols model has been developed to cover syntactically unrestricted sentences of Latvian language. A PML (Prague Markup Language) profile for displaying SemTi-Kamols data in the internationally acknowledged machine-readable form has been developed. This XML based format is integrated with SemTi-Kamols parser and visual tree editor TrEd originally developed for PDT. The main result of this work is the technological and methodological base for creating Latvian Treebank — a framework consisting of integrated tools and formats that allows to annotate treebank data accordingly to the SemTi-Kamols model without requiring deep technological knowledge from the end-user (linguist). Approximately 200 sentences have been annotated using the developed framework

    An integrated system for the development of Latvian Treebank

    Get PDF
    Darbā aplūkota sintaktiski anotētu korpusu (treebank) izstrādes problemātika ar mērķi radīt stabilu tehnoloģisko pamatu sintaktiski anotēta latviešu valodas korpusa izstrādei. Darbā apskatīti klasiskie sintaktiskās analīzes (reprezentācijas) modeļi — vārdkopu struktūru un atkarību gramatikas — un SemTi-Kamola hibrīdais gramatikas modelis valodām ar relatīvi brīvu vārdu secību. Darbā analizēta pasaulē lielāko sintaktiski anotēto korpusu pieredze un formāti, īpašu uzmanību pievēršot vadošā atkarību pieejā balstītā korpusa — Prāgas atkarību korpusa (Prague Dependency Treebank — PDT) — vairāklīmeņu anotāciju struktūrai. Darbā izstrādāts SemTi-Kamola gramatikas modeļa paplašinājums, kas nodrošina sintaktiski neierobežotu teikumu anotēšanu. Izveidots PML (Prague Markup Language) profils SemTi-Kamols datu aprakstīšanai starptautiski atzītā mašīnlasāmā formā. Izstrādātais XML balstītais datu formāts ir integrēts ar SemTi-Kamola automātiskās sintaktiskās analīzes rīkiem un vizuālo kokveida datu struktūru redaktoru TrEd, kas ir izmantots PDT izveidē. Tādejādi ir radīts tehnoloģiskais un metodoloģiskais pamats latviešu valodas sintaktiski anotēta korpusa radīšanai — vide (integrētu rīku un formātu kopums), kas ļauj tekstus formāli anotēt atbilstoši SemTi-Kamols modelim, bet neprasa specifiskas tehnoloģiju zināšanas no lietotāja (valodnieka). Izstrādātā vide tiek sekmīgi pielietota praksē — izveidotas anotācijas apmēram 200 teikumiem.The problem of developing syntactically annotated text corpus (treebank) is considered in this work. The aim of this work is to develop a sound technological base for developing Latvian Treebank. General approaches of the syntactic analysis are described — the phrase structure approach and the dependency approach. The SemTi-Kamols hybrid dependency based grammar for languages with rather free word order is also described. The experience of world’s largest treebanks, particularly Prague Dependency Treebank (PDT) and its multi-level annotation structure, is analysed as well. An extension of the SemTi-Kamols model has been developed to cover syntactically unrestricted sentences of Latvian language. A PML (Prague Markup Language) profile for displaying SemTi-Kamols data in the internationally acknowledged machine-readable form has been developed. This XML based format is integrated with SemTi-Kamols parser and visual tree editor TrEd originally developed for PDT. The main result of this work is the technological and methodological base for creating Latvian Treebank — a framework consisting of integrated tools and formats that allows to annotate treebank data accordingly to the SemTi-Kamols model without requiring deep technological knowledge from the end-user (linguist). Approximately 200 sentences have been annotated using the developed framework
    corecore