    Migrating Cornetto Lexicon to New XML Database Engine

    The original Cornetto project started to develop a new complex-structured lexicon for the Dutch language. The lexicon building process works with information from two current electronic dictionaries -- the Referentie Bestand Nederlands (RBN), which contains FrameNet-like structures, and the Dutch wordnet (DWN) with the usual wordnet structures. The resulting Cornetto lexicon is stored in a system called Cornetto database, which is built over the Dictionary Editor and Browser platform. In this paper, we describe a transition of the Cornetto database system to a new database backend based on large set of tests that were run on four selected (out of twenty) available XML database systems. We present the technical details of the Cornetto editing process and the results before and after the database transition.Cílem projektu Cornetto bylo vytvořit nový komplexní lexikon nizozemského jazyka. Při tvorbě lexikonu se pracuje s informace ze dvou existujících elektronických slovníků - Referentie Bestand Nederlands (RBN), který obsahuje struktury podobné FrameNetu, a Dutch Wordnet (DWN) s obvyklou strukturou wordnetu. Výsledný lexikon je uložen v systému nazvaném Cornetto database, který je postaven na platformě Dictionary Editor and Browser (DEB). V článku popisujeme přechod systému Cornetto na novou databázi, která byla vybrána pomocí rozsáhlé sady testů provedených na čtyřech vybraných (z více než dvaceti existujících) XML databázových systémech. Jsou popsány technické podrobnosti editace databáze Cornetto a výsledky srovnávající stav před a po změně databáze

    Lexicographic Tools to Build New Encyclopaedia of the Czech Language

    The first edition of the Encyclopaedia of the Czech Language was published in 2002 and since that time it has established as one of the basic reference books for the study of the Czech language and related linguistic disciplines. However, many new concepts and even new research areas have emerged since that publication. That is why a preparation of a complete new edition of the encyclopaedia started in 2011, rather than just re-printing the previous version with supplements. The new edition covers current research status in all concepts connected with the linguistic studies of (prevalently, but not solely) the Czech language. The project proceeded for five years and it has finished at the end of 2015, the printed edition is currently in preparation. An important innovation of the new encyclopaedia lies in the decision that the new edition will be published both as a printed book and as an electronic on-line encyclopaedia, utilizing the many advantages of electronic dictionaries. In this paper, we describe the lexicographic platform used for the Encyclopaedia preparation and the process behind the work flow consisting of more than 3,000 pages written by nearly 200 authors from all over the world. The paper covers the process of managing entry submissions, the development of tools to convert word processor files to an XML database, tools to cross-check and connect bibliography references from free text to structured bibliography entries, and the preparation of data for the printed publicationPrvní vydání Encyklopedického slovníku češtiny bylo vydáno v roce 2002 a od té doby slouží jako jedna ze základních referenčních příruček pro studium češtiny a souvisejících lingvistických oborů. Ovšem od vydání se objevily nové koncepty a výzkumné oblasti. Proto v roce 2011 začala příprava naprosto nového, přepracovaného vydání, které bylo vhodnější než doplnění původního vydání o dodatky. Nové vydání pokrývá aktuální stav výzkumu v lingvistických oborech (převážně) češtiny. Project pokračoval pět let a byl dokončen na konci roku 2015, tištěná publikace je v současné době v přípravě. Důležitá inovace nové encyklopedie je v rozhodnutí vydat současně tištěnou knihu i elektronickou online encyklopedii, s využitím mnoha výhod elektronických slovníků. Tento článek popisuje lexikografickou platformu použitou pro tvorbu encyklopedie a metody při postupu práce na tvorbě více než 3000 stran textu od téměř 200 autorů z celého světa. Článek popisuje správu odevzdaných textů, vývoj nástroje pro konverzi z textových souborů do XML databáze, nástroje pro křížovou kontrolu odkazů mezi hesly a na literaturu z volného textu na strukturované bibliografické záznamy, a přípravu dat pro tištěné vydání

    DEBWrite: Free Customizable Web-based Dictionary Writing System

    Today, lexicographers can avail themselves of several commercial and freely distributed dictionary writing systems (DWS). Nevertheless, there is still a group of users whose requirements are not satisfied by existing DWSs. In various lexicographic forums, there is a growing demand for freely available DWS that allows customization of the dictionary microstructure. In accordance with such requests, a new project was developed as part of the DEB (Dictionary Editor and Browser) platform. DEBWrite is implemented as a multi-platform web application based on open standards. It allows users to create and share a new dictionary without any difficult configuration or advanced technical skills. According to a defined entry structure, the editing form and the public dictionary browser are generated automatically. DEBWrite supports small and larger team cooperation when working on the dictionary content. Access rights management for the created dictionary involves three levels of user roles: a manager, an editor, and a reader. It is possible to publish the resulting dictionary in various formats, both for human readers, and for external applications (e.g. NLP-related applications that need to work with lexicographic data). The dictionary may be published in an online form, or in formats suitable for print preparation

    Low-cost ontology development

    In this paper, we present the project building new lexical resource -- shallow ontology derived from the corpora. The ontology should be used primarily for machine translation, syntactic parsing and word sense disambiguation. Currently, the ontology for Czech language is developed, but the methodology and tools are suitable for other languages with similar structure. Ontology is based on BushBank corpus, which improves handling of ambiguity in natural language. BushBank data and tools are application-driven, thus reducing the time and costs needed to annotate the corpora and develop new lexical resources.V článku je představen projekt budování nového lexikálního zdroje - mělké ontologie odvozené z korpusu. Ontologie by měla být primárně použita pro strojový překlad, syntaktické parsování a dezambiguaci významu slov. V současné době probíhá tvorba ontologie pro češtinu, ale metodologie a nástroje jsou vhodné i pro další jazyky s podobnou strukturou. Ontologie je založena na korpusu BushBank, který vylepšuje práci s nejednoznačnostmi v přirozeném jazyce. Data a nástroje BushBank jsou založena na aplikacích, tím se redukuje čas a náklady potřebné k anotaci korpusu a tvorby lexikálních zdrojů

    Overview and Future of Czech Wordnet

    Czech Wordnet represents one of the national wordnets created during the EuroWordNet and Balkanet projects. However, the data contains various issues that affects the use of Czech Wordnet in NLP applications. Due to lack of resources, it was not possible to update Czech Wordnet thoroughly since the publication of the first version. In 2017, we have started a project to evaluate and update Czech Wordnet, followed by the connection to Collaborative Interlingual Index. This paper provides overview of various updates and extensions of the Czech Wordnet data, and presents the roadmap to publish revised version of Czech Wordnet under open license.Český Wordnet je jeden z národních wordnetů, vytvořených během projektů EuroWordnet a Balkanet. Údaje ve wordnetu bohužel obsahují různé chyby, které ovlivňují použití českého wordnetu v NLP aplikacích. Vzhledem k nedostatečným zdrojům nebylo možno od vydání první verze český wordnet výrazně aktualizovat. V roce 2017 jsme začali pracovat na vyhodnocení a aktualizac českého wordnetu, následované napojením na Collaborative Interlingual Index. Tento článek shrnuje existující verze a rozšíření českého wordnetu a představuje plán na vydání aktualizované verze s otevřenou licencí

    A database of semantic clusters of verb usages

    We are presenting VPS-30-En, a small lexical resource that contains the following 30 English verbs: access, ally, arrive, breathe, claim, cool, crush, cry, deny, enlarge, enlist, forge, furnish, hail, halt, part, plough, plug, pour, say, smash, smell, steer, submit, swell, tell, throw, trouble, wake and yield. We have created and have been using VPS-30-En to explore the interannotator agreement potential of the Corpus Pattern Analysis. VPS-30-En is a small snapshot of the Pattern Dictionary of English Verbs (Hanks and Pustejovsky, 2005), which we revised (both the entries and the annotated concordances) and enhanced with additional annotations. It is freely available at http://ufal.mff.cuni.cz/spr. In this paper, we compare the annotation scheme of VPS-30-En with the original PDEV. We also describe the adjustments we have made and their motivation, as well as the most pervasive causes of interannotator disagreements

    Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet

    Sustainable long-term WordNet development and maintenance: Case study of the Czech WordNet Czech WordNet represents one of the first national wordnets created during the EuroWordNet and BalkaNet projects. However, the data contains various issues that affect the use of Czech WordNet in NLP applications. Since the publication of the first CzWN version, the semantic network was augmented in several phases, however, complex final editing and publishing process has not been finished. In 2017, we have started a project to evaluate and update the Czech WordNet, followed by a connection to the Collaborative Interlingual Index. In this paper, we provide an overview of Czech WordNet data updates and extensions, and present the roadmap to publish a revised version of the Czech WordNet under open license. Moreover, we introduce a developed concept for long-term updates and maintenance of the data based on crowdsourcing activities.   Zrównoważony i długafalowy proces rozwoju i utrzymania wordnetu na przykładzie wordnetu czeskiego Czeski WordNet jest jednym z pierwszych narodowych wordnetów powstałych podczas projektów EuroWordNet i BalkaNet. Jednakże dane zawierają błędy, które wpływają na używanie czeskiego wordnetu w aplikacjach NLP. Od momentu opublikowania pierwszej wersji czeskiego wordnetu sieć semantyczna została rozszerzona w kilku etapach, jednak złożony proces końcowej edycji i publikacji nie został jeszcze zakończony. W roku 2017 zaczęliśmy projekt mający na celu ocenę i aktualizację czeskiego wordnetu, a następnie połączenie go z Collaborative Interlingual Index. W danym artykule przedstawiamy ogólny zarys uaktualnień i rozszerzeń zawartości czeskiego wordnetu, a także prezentujemy plan działania, który doprowadzi do publikacji udoskonalonej wersji czeskiego wordnetu na otwartej licencji. Ponadto prezentujemy opracowaną koncepcję długoterminowych uaktualnień i utrzymania danych w oparciu o działania crowdsourcingowe