302 research outputs found

    Vocabulary extension by paradigm prediction

    Get PDF

    A New Form of Humor? Mapping Constraint-Based Computational Morphologies to a Finite-State Representation

    Get PDF
    MorphoLogic’s Humor morphological analyzer engine has been used for the development of several high-quality computational morphologies, among them ones for complex agglutinative languages. However, Humor’s closed source licensing scheme has been an obstacle to making these resources widely available. Moreover, there are other limitations of the rule-based Humor engine: lack of support for morphological guessing and for the integration of frequency information or other weighting of the models. These problems were solved by converting the databases to a finite-state representation that allows for morphological guessing and the addition of weights. Moreover, it has open-source implementations

    "Olcsó" morfológia

    Get PDF
    A számítógépes morfológiai leírások egy része a lexikon mell ett szabálykomponenst is tartalmaz. Ez utóbbi biztosítja egyré szt a morfológiai leírás konzisztenciáját, másrészt megkönnyíti a morfol ógia új lexikai elemekkel való bővítését. Azonban egy ilyen típusú leírás e lkészítése komoly erőfeszítést és különféle kompetenciákat igényel. A leg több szabadon elérhető morfológiai leírás viszont nem tartalmaz szabályokat. Ezek általában egy alaktani szótáron alapulnak, és a szavak lemm ája és esetleg ettől eltérő töve mellett valamilyen a szó ragozási paradig máját leíró információt tartalmaznak, gyakran valamiféle paradigmaazono sító címke formájában. Ezt esetleg még egyéb lexikai–szintaktikai–sze mantikai információ egészítheti ki. Az ebben a cikkben bemutatott kutat ás célja egy olyan algoritmus kidolgozása volt, amely lehetővé tesz i, hogy a szabály alapú morfológiákhoz hasonlóan egyszerű módon lehesse n az ilyen szótáralapú morfológiai leírásokba is új lexikai tételeket felvenni. A felügyelt tanításon alapuló algoritmus a szótárból hiányzó sz avak helyes ragozási paradigmáját próbálja meg megjósolni a leghosszabb i lleszkedő végződésekéslexikaigyakoriságiadatokfelhasználásával . Az algoritmust orosz nyelvű adatokon mutatjuk be és értékeljük ki

    Depth of Investigation of Dipole-dipole, Noncolinear and Focused Geoelectric Arrays

    Get PDF
    Investigation depth of various DC geoelectric arrays has always been in the focus of interest of geoelectricians. According to its classical definition (Roy and Apparao 1971), the depth of investigation is the depth of the maximum response due to a horizontal thin-sheet embedded in a half-space, by using a given geoelectric array. On basis of the graph of the thin-sheet response as a function of the depth (from the so-called „depth of investigation characteristics” or DIC function) Edwards (1977) found more realistic to compute the medium depth than the depth of the maximum response. DIC functions have been known so far only for simple colinear arrays, the dipole equatorial array and two focused arrays. Here we provide a summary about the depth of investigation values of various dipole-dipole arrays (for parallel, perpendicular, radial, azimuthal ones), and for the most important noncolinear and focused arrays. Depth of investigation values are computed from both approaches. DIC functions (obtained by a new analytical formula) are also presented, as illustrations. The analytical formula can be used to compute DIC function of any surface geoelectric array. A systematic interpretation of the resulting depth of investigation values provides simple but useful thumb-rules for practical applications

    The Jagiellonians in Europe: Dynastic Diplomacy and Foreign Relations – Die Jagiellonen in Europa: Dynastische und Diplomatische Beziehungen.

    Get PDF
    This volume is the proceedings of an international conference and workshop “The Jagiellonians in Europe: Dynastic Diplomacy and Foreign Relations” to be held on 10 - 11 April 2015 at the Faculty of Arts and Humanities of the University of Debrecen. The organ izers would like to give a broad, different approach, other than the usual national – for us, Hungarian spectacle – and view the dynasty in a European context, mainly concentrating on the European relations and view of Poland, Bohemia and Hungary. Since ou r perspective is pre - 1526, based on our Hungarian - centred researches, we would mainly focus on the earlier periods, 15 th and early 16 th century. We are honoured to introduce 20 speakers in six sessions from several countries – beyond the ones that had bee n under the rule of the Jagiellonian dynasty, i.e. Hun- gary, Bohemia, Croatia, Slovakia and Poland – from England, Germany and Romania. We are also pleased to welcome Dr. Paul Srodecki (Universität Giessen) as a guest speaker who will launch the program wit h a key - note lecture. Our aim was however to organize a roundtable discussion as well, where the scholars of the different research centres throughout Europe could have an opportunity to have a discussion over the place and role of the Jagiellonian dynasty in the European constellation of the 15 th and early 16 th centuries

    Műveltség és társadalmi szerepek: arisztokraták Magyarországon és Európában. Learning, Intellect and Social Roles: Aristocrats in Hungary and Europe

    Get PDF
    2013 szeptemberében az OTKA pályázat tagj ai meghívást kaptak az Eperjesi Egyetemre, a „M ű veltség és társadalmi szerepek: a 17–20. századi arisztokrácia m ű veltsége, m ű vészetet és az oktatás fejlesztését, a birtokok építését, modernizá- cióját támogató tevékenysége” cím ű konferenciára, amelyet a város polgármes- tere mellett a kassai magyar f ő konzul asszony nyitott meg. A 22 el ő adó közül többen elküldték tanulmányaikat jelen kötetünkbe. Többek között: Az MTA-DE Lendület Magyarország a középkori Európában kutatócsoport tagjainak tanulmányai Bárány Attila, „English chivalric insignia in Hungary”, pp. 73-96.; Györkös Attila, „Aventurier sans scrupule ou héros national? La carrière de Christophe Frangepan, aristocrate de la Renaissance” Novák Ádám, „The Seal Usage of Hungarian Aristocrats in the 15th century”, pp. 59-72

    More effective boilerplate removal – the GoldMiner algorithm

    Get PDF
    Abstract—The ever-increasing web is an important source for building large-scale corpora. However, dynamically generated web pages often contain much irrelevant and duplicated text, which impairs the quality of the corpus. To ensure the high quality of web-based corpora, a good boilerplate removal algorithm is needed to extract only the relevant content from web pages. In this article, we present an automatic text extraction procedure, GoldMiner, which by enhancing a previously published boilerplate removal algorithm, minimizes the occurrence of irrelevant duplicated content in corpora, and keeps the text more coherent than previous tools. The algorithm exploits similarities in the HTML structure of pages coming from the same domain. A new evaluation document set (CleanPortalEval) is also presented, which can demonstrate the power of boilerplate removal algorithms for web portal pages. Index Terms—corpus building, boilerplate removal, the web as corpus I. THE TASK When constructing corpora from web content, the extraction of relevant text from dynamically generated HTML pages is not a trivial task due to the great amount of irrelevant repeated text that needs to be identified and removed so that it does not compromise the quality of the corpus. This task, called boilerplate removal in the literature, consists of categorizing HTML content as valuable vs. irrelevant, filtering out menus, headers and footers, advertisements, and structure repeated on many pages. In this paper, we present a boilerplate removal algorithm that removes irrelevant content from crawled content more effectively than previous tools. The structure of our paper is as follows. First, we present some tools that we used as baselines when evaluating the performance of our system. The algorithm implemented in one of these tools, jusText, is also used as part of our enhanced boilerplate removal algorithm. This is followed by the presentation of the enhanced system, called GoldMiner, and the evaluation of the results

    Automatic Diacritics Restoration for Hungarian

    Get PDF

    Restoring the intended structure of Hungarian ophthalmology documents

    Get PDF
    Clinical documents have been an emerg- ing target of natural language applications. Information stored in documents created at clinical settings can be very useful for doctors or medical experts. However, the way these documents are created and stored is often a hindrance to accessing their content. In this paper, an automatic method for restoring the intended structure of Hungarian ophthalmology documents is described. The statements in these docu- ments in their original form appeared un- der various subheadings. We successfully applied our method for reassigning the correct heading for each line based on its content. The results show that the cate- gorization was correct for 81.99% of the statements in our testset, compared to a human categorization

    Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban

    Get PDF
    A kórházi körülmények között létrejövő klinikai dokumentu- mok feldolgozása a nyelvtechnológia egyik központi kutatás i területévé vált az utóbbi időben. A más jellegű, általános nyelvezetű sz övegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve gyengén teljesítenek a speciális orvosi szövegek esetén. To vábbá számos olyan feladat van, amelyek során a szakkifejezések azonosítás a és a közöt tük lévő kapcsolatok meghatározása nagyon fontos lépés, azo nban csak külső lexikai erőforrások, tezauruszok és ontológiák segít ségével oldhatók meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok nem állnak rendelkezésre. Ezért a szövegekben lévő informác iók annotálása és rendszerezése emberi szakértői munkát igényel. Ebb en a cikkben bemutatjuk,hogy statisztikai módszerekkel milyen módon al akíthatók át a nyers dokumentumok egy olyan előfeldolgozott,részben str ukturált for mára,ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz fel használásával alkalmazott modulok felismerik és feloldják a r övidítéseket, azonosítják a többszavas kifejezéseket és meghatározzák azok hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű repre zentációját, ahol az egyes kifejezések helyére a hasonlóságuk alapján kialakított klasz terek azonosítóját helyettesítve a szövegek egyszerűsíthe tőek, a gyakran ismétlődő mintázatok általános alakja meghatározható
    corecore