    summary:This paper describes UIO, a multi–domain question–answering system for the Czech language that looks for answers on the web. UIO exploits two fields, namely natural language interface to databases and question answering. In its current version, UIO can be used for asking questions about train and coach timetables, cinema and theatre performances, about currency exchange rates, name–days and on the Diderot Encyclopaedia. Much effort have been made into making addition of a new domain very easy. No limits concerning words or the form of a question need to be set in UIO. Users can ask syntactically correct as well as incorrect questions, or use keywords. A Czech morphological analyser and a bottom-up chart parser are employed for analysis of the question. The database of multiword expressions is automatically updated when a new item has been found on the web. For all domains UIO has an accuracy rate about 8

    Platform for Full-Syntax Grammar Development Using Meta-grammar Constructs

    PACLIC 20 / Wuhan, China / 1-3 November, 200

    Proceedings of the Sixth International Conference Formal Approaches to South Slavic and Balkan languages

    Proceedings of the Sixth International Conference Formal Approaches to South Slavic and Balkan Languages publishes 22 papers that were presented at the conference organised in Dubrovnik, Croatia, 25-28 Septembre 2008

    ProMap: Datasets for Product Mapping in E-commerce

    The goal of product mapping is to decide, whether two listings from two different e-shops describe the same products. Existing datasets of matching and non-matching pairs of products, however, often suffer from incomplete product information or contain only very distant non-matching products. Therefore, while predictive models trained on these datasets achieve good results on them, in practice, they are unusable as they cannot distinguish very similar but non-matching pairs of products. This paper introduces two new datasets for product mapping: ProMapCz consisting of 1,495 Czech product pairs and ProMapEn consisting of 1,555 English product pairs of matching and non-matching products manually scraped from two pairs of e-shops. The datasets contain both images and textual descriptions of the products, including their specifications, making them one of the most complete datasets for product mapping. Additionally, the non-matching products were selected in two phases, creating two types of non-matches -- close non-matches and medium non-matches. Even the medium non-matches are pairs of products that are much more similar than non-matches in other datasets -- for example, they still need to have the same brand and similar name and price. After simple data preprocessing, several machine learning algorithms were trained on these and two the other datasets to demonstrate the complexity and completeness of ProMap datasets. ProMap datasets are presented as a golden standard for further research of product mapping filling the gaps in existing ones

    Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet

    Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet Czech WordNet represents one of the first national wordnets created during the EuroWordNet and BalkaNet projects. However, the data contains various issues that affect the use of Czech WordNet in NLP applications. Since the publication of the first CzWN version, the semantic network was augmented in several phases, however, complex final editing and publishing process has not been finished. In 2017, we have started a project to evaluate and update the Czech WordNet, followed by a connection to the Collaborative Interlingual Index. In this paper, we provide an overview of Czech WordNet data updates and extensions, and present the roadmap to publish a revised version of the Czech WordNet under open license. Moreover, we introduce a developed concept for long-term updates and maintenance of the data based on crowdsourcing activities.   Zrównoważony i długafalowy proces rozwoju i utrzymania wordnetu na przykładzie wordnetu czeskiego Czeski WordNet jest jednym z pierwszych narodowych wordnetów powstałych podczas projektów EuroWordNet i BalkaNet. Jednakże dane zawierają błędy, które wpływają na używanie czeskiego wordnetu w aplikacjach NLP. Od momentu opublikowania pierwszej wersji czeskiego wordnetu sieć semantyczna została rozszerzona w kilku etapach, jednak złożony proces końcowej edycji i publikacji nie został jeszcze zakończony. W roku 2017 zaczęliśmy projekt mający na celu ocenę i aktualizację czeskiego wordnetu, a następnie połączenie go z Collaborative Interlingual Index. W danym artykule przedstawiamy ogólny zarys uaktualnień i rozszerzeń zawartości czeskiego wordnetu, a także prezentujemy plan działania, który doprowadzi do publikacji udoskonalonej wersji czeskiego wordnetu na otwartej licencji. Ponadto prezentujemy opracowaną koncepcję długoterminowych uaktualnień i utrzymania danych w oparciu o działania crowdsourcingowe

    Rozdíly mezi pravdivou a lživou online textovou komunikací

    V článku porovnáváme „běžnou“ a „lživou“ internetovou komunikaci vedenou přes Windows Live Messenger. Respondenti měli v experimentálně pojatém výzkumu nejprve za úkol komunikovat s druhou neznámou osobou, poté dostali za úkol komunikovat s jinou osobou a přitom předstírat identitu opačného pohlaví a lhát. Následně jsme porovnávali jazykové prostředky, které byly v obou typech komunikace používány. Výsledky ukázaly, že lživá komunikace obsahovala větší počet slovesných tvarů v prvním stupni, více příslovcí, vět a otázek a menší počet číslovek a slov v druhém pádě a jejich vzkazy byly kratší. Rozdíly mezi klamavou a běžnou komunikací se lišily u mužů a žen: u mužů se při klamavé komunikaci oproti pravdivé změnily spíše lingvistické charakteristiky jejich projevu (počet příslovcí), kdežto u žen spíše charakteristiky strategie komunikace (počet otázek). Článek může sloužit jako výchozí bod pro práci na nástrojích umožňujících automatickou analýzu klamání na internetu v českém jazyce

    Encyclopedia Expert

    Předmětem projektu je systém pro zodpovídání otázek formulovaných v přirozeném jazyce. Práce pojednává nejprve o problémech spjatých se systému tohoto druhu a o některých uplatňovaných přístupech. Důraz je kladen na povrchové metody, které nejsou tolik náročné na dostupnost lingvistických zdrojů. V praktické části je pak popsán návrh systému, který zodpovídá faktografické otázky s využitím české Wikipedie jako zdroje informací. Extrakce odpovědí je založena zčásti na specifických rysech Wikipedie a zčásti na ručně předdefinovaných vzorech. Výsledky ukazují, že pro zodpovídání jednoduchých otázek je systém výrazně přínosnější než běžný vyhledávací stroj.This project focuses on a system that answers questions formulated in natural language. Firstly, the report discusses problems associated with question answering systems and some commonly employed approaches. Emphasis is laid on shallow methods, which do not require many linguistic resources. The second part describes our work on a system that answers factoid questions, utilizing Czech Wikipedia as a source of information. Answer extraction is partly based on specific features of Wikipedia and partly on pre-defined patterns. Results show that for answering simple questions, the system provides significant improvements in comparison with a standard search engine.

    Morphological Analyser Implemented as FSAs

    Tato práce se věnuje analýze českého jazyka a pokouší se rozšířit zatím omezenou derivativní nadstavbu, kterou disponuje morfologický analyzátor MA. Autor popisuje dosavadní stav tohoto programu a vytváří postupy pro nalezení slovotvorných vazeb, které slouží k vytváření derivačních pravidel, díky kterým je možné automatické rozšiřování znalostí české slovotvorby. Poté ilustruje, jak se data seskupují dle podobnosti, aby vytvořila derivační vzory, které usnadňují budoucí zpracování nových slov. Závěrem jsou výstupy práce zhodnoceny a jsou naznačeny směry možného rozvoje.This thesis deals with analysis of czech language and tries to enlarge limited derivative extension of morphologic analysator MA. Author describes actual state of this program and defines ways to find word formation connections, which serves to create derivation rules, which helps to automatically enrich knowledge of czech word formation. Illustrates how are similiar data grouped to create derivation patterns, which will make future work with new words easier. In the end, outcomes are sumarized and direction of possible future evolution is described.

    Biogeochemical processes and trace element mobility in alkaline waste affected soils

    Light verb constructions and their exploitation for morphological annotation

    iv Abstract This Ph.D. thesis deals with light verb constructions (LVCs), such as provádět kontrolu (to perform a check) or chovat úctu (to show respect). It demonstrates how to apply theoretical knowledge of these constructions into practice, exploiting it during morphological disambiguation and thus potentially improving syntactic analysis. The theoretical part of the thesis covers three areas: light verb constructions, corpus annotation, and LanGr rule-based morphological disambiguation tagging. At first, LVCs are characterized, including their identification criteria, followed by a description of the current state of research on LVCs and a summary of papers published on the topic over the last fifteen years, with a particular emphasis on the syntactic approach to these constructions. A compilation of existing LVC inventories is also provided. Furthermore, Czech National Corpus written corpora tagging process is outlined, as it is closely related to the LanGr tool. Finally, LanGr rule creation and code implementation are covered. The practical part of the thesis addresses nominative-accusative case homonymy. New rules for the LanGr system are also developed to improve morphological annotation. In a case study, the most frequent forms of direct object LVCs are retrieved using data from the SYNv10 corpus....iii Abstrakt Disertační práce se zaměřuje na analytický predikát s kategoriálním slovesem (dále APKS), tedy spojení jako provádět kontrolu nebo chovat úctu. Ilustruje, jak zúročit teoretické poznání těchto spojení v praxi, vytěžit ho při morfologické disambiguaci, a tím potenciálně ovlivnit i syntaktickou analýzu. Teoretická část práce pokrývá tři oblasti - APKS, značkování korpusů a pravidlový disambiguační systém LanGr. APKS charakterizuje včetně kritérií pro jejich určování, popisuje současný stav jejich poznání a usouvztažňuje příspěvky k tématu, které vyšly v průběhu posledních patnácti let; důraz je přitom kladen zejména na syntaktický pohled na tyto konstrukce. Zároveň práce mapuje existující soupisy těchto spojení. Následuje popis procesu značkování psaných korpusů Českého národního korpusu, s nímž úzce souvisí i systém automatické morfologické disambiguace LanGr, kterému je věnována pozornost jak na teoretické úrovni tvorby pravidel, tak na úrovni jejich zápisu ve stejnojmenném programovacím jazyce. Praktická část práce se zaměřuje na konkrétní výsek morfologické homonymie akuzativních tvarů a zlepšuje morfologickou anotaci na základě nově vytvořených pravidel pro systém LanGr. Nejprve v první případové studii na datech z korpusu SYNv10 identifikuje pravidelnosti APKS s bezpředložkovým akuzativem,...Ústav teoretické a komputační lingvistikyInstitute of Theoretical and Computational LinguisticsFaculty of ArtsFilozofická fakult