    The Unreasonable Effectiveness of Pattern Generation

    Na cestě k lemmatizaci staročeských textů: data, software, aplikace

    This paper introduces the description of Old Czech common nouns developed and used in a tool for tagging and lemmatizing common nouns occurring in transcribed digital editions of Old Czech texts. This description consists of four parts: the first features an overview of all declension type endings (approx. 100 declension patterns), the second part analyses alternations in the morphological basis accompanying declension (approx. 120 types of alternations), the third part deals with formal changes connected mainly with the language’s historical development (approx. 100 formal changes) and, finally, the fourth part contains a list of lemmas extracted from modern dictionaries of Old Czech (approx. 29 000 lemmas). Furthermore, the paper introduces the software developed and used for this purpose, namely i) the tool which makes it possible a) to generate word forms and subsequently search for multiple word forms in the texts at once, b) to create lists of word forms filtered by sequences of characters occurring at the end of the word forms, ii) the tool for assigning a declension pattern to a lemma, and iii) the tool enabling work with large databases. Finally, the paper describes two applications developed on the basis of Old Czech common noun description, i.e. i) a database of Old Czech common noun declension patterns connected with Old Czech dictionaries and the Old Czech text bank, ii) a tool for generating word forms, which is used for the lemmatization and tagging of Old Czech texts

    Natural Text Processing and its Categorization

    Zaměřením této práce byla problematika zpracovávání textu v přirozeném jazyce a jeho kategorizace. Konkrétním cílem bylo vyvinout program pro zpracování textů v češtině a angličtině a jejich následnou analýzu. Po zvážení výběru jazyka pro implementaci byl vybrán programovací jazyk Python a pro extrakci dat z internetu byla využita jeho knihovna Scrapy. Lemmatizace textů je realizována skrze knihovnu Majka. Program umí, po naučení z dodaných datasetů, porovnat několik možných algoritmů pro kategorizaci textu a nové data do daných kategorií zařadit. V programu je také implementováno shlukování textů pro kategorizaci bez počátečních datasetů.The aim of this work was the issue of text processing in natural language and its categorization, and specifically to develop a program for processing texts in Czech and English and their subsequent analysis. After considering the choice of language for implementation was selected programming language Python and its Scrapy library was used to extract data from the Internet. Lemmatization of texts is realized through its library Majka. The program can, after learning from the supplied datasets, compare several possible algorithms for text categorization and include new data in the given categories. The program also implements grouping of texts for categorization without initial datasets.460 - Katedra informatikyvýborn

    Trie Structures for Large Text Data Processing

    Táto práca rozoberá spracovanie prirodzeného jazyka so zameraním sa na morfologickú analýzu a spoznávanie pomenovaných entít. Rozoberá efektívne vyhľadávanie v slovníkoch a v ňom používaných špecializovaných stručných štruktúr a ich praktické implementácie. Popisuje návrh a implementáciu systému pre spoznávanie pomenovaných entít a morfologického analyzátora za využitia stručných štruktúr a nakoniec porovnáva a testuje ich efektivitu a rýchlosť.This study analyzes natural language processing with emphasis on morphological analysis of inflective languages and systems for named entity recognition. It analyzes effective pattern matching in dictionary by using succint structures and then analyzes practical implementation of succint structures. It describes design and implementation of named entity recognition system and morphological analyzer and compares and test their speed and effectiveness.

    Text document plagiarism detector

    Diplomová práce se zabývá rešerší metod detekce plagiátů v textových dokumentech a následným návrhem a implementací nového detektoru plagiátů, jehož primárním účelem je odhalování plagiátů v akademických pracích VUT v Brně. Vytvořené řešení aplikuje vícekrokové algoritmy předzpracování na cílové dokumenty, jejichž zpracovaná data jsou následně uložena do vlastního korpusu (báze dokumentů). Úloha hledání shod (možných plagiátů) porovnává vybraný dokument vůči zbytku korpusu, přičemž využívá paralelních výpočtů na grafické kartě. Cílem je dosáhnout co nejrychlejšího srovnání při zachování přijatelné kvality výstupu.This diploma thesis is concerned with research on available methods of plagiarism detection and then with design and implementation of such detector. Primary aim is to detect plagiarism within academic works or theses issued at BUT. The detector uses sophisticated preprocessing algorithms to store documents in its own corpus (document database). Implemented comparison algorithms are designed for parallel execution on graphical processing units and they compare a single subject document against all other documents within the corpus in the shortest time possible, enabling near real-time detection while maintaining acceptable quality of output.

    Light verb constructions and their exploitation for morphological annotation

    iv Abstract This Ph.D. thesis deals with light verb constructions (LVCs), such as provádět kontrolu (to perform a check) or chovat úctu (to show respect). It demonstrates how to apply theoretical knowledge of these constructions into practice, exploiting it during morphological disambiguation and thus potentially improving syntactic analysis. The theoretical part of the thesis covers three areas: light verb constructions, corpus annotation, and LanGr rule-based morphological disambiguation tagging. At first, LVCs are characterized, including their identification criteria, followed by a description of the current state of research on LVCs and a summary of papers published on the topic over the last fifteen years, with a particular emphasis on the syntactic approach to these constructions. A compilation of existing LVC inventories is also provided. Furthermore, Czech National Corpus written corpora tagging process is outlined, as it is closely related to the LanGr tool. Finally, LanGr rule creation and code implementation are covered. The practical part of the thesis addresses nominative-accusative case homonymy. New rules for the LanGr system are also developed to improve morphological annotation. In a case study, the most frequent forms of direct object LVCs are retrieved using data from the SYNv10 corpus....iii Abstrakt Disertační práce se zaměřuje na analytický predikát s kategoriálním slovesem (dále APKS), tedy spojení jako provádět kontrolu nebo chovat úctu. Ilustruje, jak zúročit teoretické poznání těchto spojení v praxi, vytěžit ho při morfologické disambiguaci, a tím potenciálně ovlivnit i syntaktickou analýzu. Teoretická část práce pokrývá tři oblasti - APKS, značkování korpusů a pravidlový disambiguační systém LanGr. APKS charakterizuje včetně kritérií pro jejich určování, popisuje současný stav jejich poznání a usouvztažňuje příspěvky k tématu, které vyšly v průběhu posledních patnácti let; důraz je přitom kladen zejména na syntaktický pohled na tyto konstrukce. Zároveň práce mapuje existující soupisy těchto spojení. Následuje popis procesu značkování psaných korpusů Českého národního korpusu, s nímž úzce souvisí i systém automatické morfologické disambiguace LanGr, kterému je věnována pozornost jak na teoretické úrovni tvorby pravidel, tak na úrovni jejich zápisu ve stejnojmenném programovacím jazyce. Praktická část práce se zaměřuje na konkrétní výsek morfologické homonymie akuzativních tvarů a zlepšuje morfologickou anotaci na základě nově vytvořených pravidel pro systém LanGr. Nejprve v první případové studii na datech z korpusu SYNv10 identifikuje pravidelnosti APKS s bezpředložkovým akuzativem,...