13 research outputs found

    Eesti Wordnet’i struktuuri analüüsist

    Get PDF
    Artikkel pakub üldise lähenemisviisi relatsiooniliste süsteemide suletud hulkade leidmiseks ja korrastamiseks ning demonstreerib selle meetodi kasutamist Eesti Wordnet’il. Lahatakse Eesti Wordnet’i struktuuri, lähtudes semantilistest suhetest. Selgitatakse analüüsiks kasutatava infotöötlusmeetodi ideed ja sõnastatakse lahendatav probleem mitteformaalselt. Esitatakse meetodi rakendamise järjestikused sammud. Andmetöötluse tulemusena tekivad visuaalsed analüüsi objektid/pildid, mis avavad Wordnet’i struktuuri viisil, mis võimaldab leksikograafil hinnata struktuurides peituvaid eripärasid. Artikli lõpuosas antakse näidete põhjal vihjeid võimalikele probleemidele ja nende lahendustele.DOI: http://dx.doi.org/10.5128/ERYa8.09</p

    Korpuste tükeldamine: rakendusi silpide ning allkeeltega

    No full text
    <p>Keelekorpustes sisalduvat materjali on võimalik erineval moel tükeldada, andes sellega võimaluse uurida keele erinevaid tahkusid. Artiklis uurime kahte oma omadustelt väga erinevat tükeldust: teksti tükeldamist silpideks statistilise keelemudeli leidmise eesmärgil ning keele tükeldamist erinevateks allkeelteks eesmärgiga leida eesti keele põhisõnavara.</p> <p>Silpidel baseeruv statistiline keelemudel hõlmab endas 500 kõige sagedamini esinenud silpi ning on kolmetasandiline, koosnedes silpide, silbipaaride ja silbikolmikute järgnevuse sagedustabelitest. Sagedustabel on oma olemuselt maatriks, mille ridadeks on kas silbid, silbipaarid või silbikolmikud ning veergudeks silbid. Ridade ja veergude ristumispunktides on arv, mis näitab, mitu korda vastav veeru silp esines tekstikorpuses vastava reaelemendi järel.</p> <p>Eesti pseudokeele generaator on silpidel baseeruva statistilise keelemudeli rakendus. Eesti pseudokeele generaatorit kasutades on võimalik genereerida teksti, mis ei ole küll päris eesti keel, aga kahtlemata kõlab eesti keelena.</p> <p>Silpide kategoriseerimise eesmärgiks on rühmitada silbid vastavalt nende võimalikele asukohtadele sõnas. Pakume välja algoritmi silpide automaatseks rühmitamiseks kasutades silpide sagedustabelit. Näitame eksperimentaalselt kümne silbi abil, kuidas silbid jagunevad algus-, lõpu- ja kesksilpideks.</p> <p>Keelt võib tükeldada n-ö põhisõnavara sisaldavaks üldkeeleks ning erinevateks allkeelteks, mis sisaldavad vastavat oskussõnavara. Käesolevas artiklis arutleme, kas ja kuidas on käesoleval ajal defineeritud üldkeel. Ühtlasi pakume välja algoritmi sellise põhisõnavara üheseks määratlemiseks arvuti abil.</p>DOI: http://dx.doi.org/10.5128/ERYa5.1

    Cutting the text corpora : applications with syllables and sub-languages

    No full text
    In this paper we study different aspects of language by using different cuts of language corpora. There are two particular cuts under observation, which are very different by their nature: mincing the text into syllables for developing a statistical language model and dividing the language into sub-languages for identifying the base vocabulary. Our syllable based statistical language model includes the 500 most frequently observed syllables. It is a three-level model consisting of frequency tables for syllables, syllable pairs and syllable triplets. A frequency table is a matrix with syllables, syllable pairs or syllable triplets in rows and syllables in columns. The numbers in matrix cells show how many times the syllable in the column happened to follow the element in the row. The Estonian pseudo language generator is an application of the syllable based statistical language model. Using the Estonian pseudo language generator it is possible to generate a text which is not fully Estonian, but definitely sounds like one. The purpose of categorizing syllables is to assort the syllables according to their possible locations in a word. We propose an algorithm for automatic syllable grouping using the data in the syllable frequency table. We show experimentally how syllables are grouped into word-initial, word-internal and word-final syllables. Language can be divided into general language using a base vocabulary and different sub-languages, which contain particular terminology. In this paper we discuss the definition of general language. We also propose an automatic algorithm for defining its base vocabulary.16 page(s

    A Structural and Grammatical Analysis of the Estonian Constitution

    No full text
    The authors propose a novel quantitative method to analyse the structure of legal texts. The method enables to determine grammatical similarity between legal texts. The authors use the external theory of fundamental rights to separate the text of fundamental rights of the Estonian Constitution into two categories of norms: constitutional rights and restrictions. Grammatical similarity between constitutional rights, restrictions and selected legal acts and case law is measured. The layer of special norms renders the best grammatical similarity with the text of fundamental rights. The same grammatical similarity tests can be replicated to cover other jurisdictions in the future. The research is experimental, but the authors believe that the method can be utilised in fields of computational linguistics and legal text mining, but also in research where legal text structures are analysed for various purposes

    How to create order in large closed subsets of WordNet-type dictionaries

    No full text
    <p><span>This article presents a new two-step method to handle and study large closed subsets of WordNet-type dictionaries with the goal of finding possible structural inconsistencies. The notion of closed subset is explained using a WordNet tree. A novel and very fast method to order large relational systems is described and compared with some other fast methods. All the presented methods have been tested using Estonian1 and Princeton WordNet2 largest closed sets.</span></p><p>DOI: http://dx.doi.org/10.5128/ERYa9.10</p

    A preliminary structural view of the Estonian syllable system

    No full text
    Using the Corpus of Estonian Literary Language and specifically the selection of fiction texts from years 1988-1998 we have studied the frequency table of Estonian syllables (1000 most frequent syllables). As an experimental study we have used Hamilton Path (HP) and Social Network Clusters to study the inner structure of syllable system. For HP we have created and represented a program in J-6.01 which connects all syllables into a sequential path with the maximal connections sum and without a syllable repetition. As another method we have created SNC networks for 100 and 1000 most frequent syllables. In this short article we have presented graphically only the 100 syllable network without explaining exactly either the mathematical method or networks interpretation.7 page(s

    Eesti silbisüsteemi struktuurist

    No full text
    Artiklis uurime eesti keele silpide sagedusmaatriksit, mis on loodud eesti kirjakeele korpuse baasil, kasutades ilukirjandustekste aastatest 1988–1998. Vaatluse all on 1000 kõige sagedamini esinevat silpi. Eksperimentaalsete uurimismeetoditena kasutasime Hamiltoni tee ning sotsiaalse võrgustiku klastrite leidmist eesmärgiga uurida silbisüsteemi sisemist varjatud struktuuri. Hamiltoni tee leidmiseks vajaliku programmi loomiseks kasutasime programmeerimiskeelt J-6.01. Programm ühendab kõik silbid järjestikusse maksimaalse ühenduste summaga jadasse ilma silpe kordamata. Teise meetodina leidsime sotsiaalse võrgustiku klastrid 100 ja 1000 kõige sagedamini esineva silbi jaoks. Selles lühikeses artiklis esitame graafiliselt ainult 100 silbi võrgustiku ilma täpsemate selgitusteta selle leidmise matemaatilise meetodi või esituse interpretatsiooni kohta
    corecore