302 research outputs found
A New Form of Humor? Mapping Constraint-Based Computational Morphologies to a Finite-State Representation
MorphoLogic’s Humor morphological analyzer engine has been used for the development of several high-quality computational
morphologies, among them ones for complex agglutinative languages. However, Humor’s closed source licensing scheme has been
an obstacle to making these resources widely available. Moreover, there are other limitations of the rule-based Humor engine: lack of
support for morphological guessing and for the integration of frequency information or other weighting of the models. These problems
were solved by converting the databases to a finite-state representation that allows for morphological guessing and the addition of
weights. Moreover, it has open-source implementations
"Olcsó" morfológia
A számítógépes morfológiai leírások egy része a lexikon mell
ett
szabálykomponenst is tartalmaz. Ez utóbbi biztosítja egyré
szt a morfológiai leírás konzisztenciáját, másrészt megkönnyíti a morfol
ógia új lexikai
elemekkel való bővítését. Azonban egy ilyen típusú leírás e
lkészítése komoly erőfeszítést és különféle kompetenciákat igényel. A leg
több szabadon elérhető morfológiai leírás viszont nem tartalmaz szabályokat. Ezek
általában egy alaktani szótáron alapulnak, és a szavak lemm
ája és esetleg
ettől eltérő töve mellett valamilyen a szó ragozási paradig
máját leíró információt tartalmaznak, gyakran valamiféle paradigmaazono
sító címke
formájában. Ezt esetleg még egyéb lexikai–szintaktikai–sze
mantikai információ egészítheti ki. Az ebben a cikkben bemutatott kutat
ás célja
egy olyan algoritmus kidolgozása volt, amely lehetővé tesz
i, hogy a szabály alapú morfológiákhoz hasonlóan egyszerű módon lehesse
n az ilyen
szótáralapú morfológiai leírásokba is új lexikai tételeket
felvenni. A felügyelt tanításon alapuló algoritmus a szótárból hiányzó sz
avak helyes
ragozási paradigmáját próbálja meg megjósolni a leghosszabb i
lleszkedő
végződésekéslexikaigyakoriságiadatokfelhasználásával
. Az algoritmust
orosz nyelvű adatokon mutatjuk be és értékeljük ki
Depth of Investigation of Dipole-dipole, Noncolinear and Focused Geoelectric Arrays
Investigation depth of various DC geoelectric arrays has always been in the focus of interest of geoelectricians. According to its classical definition (Roy and Apparao 1971), the depth of investigation is the depth of the maximum response due to a horizontal thin-sheet embedded in a half-space, by using a given geoelectric array. On basis of the graph of the thin-sheet response as a function of the depth (from the so-called „depth of investigation characteristics” or DIC function) Edwards (1977) found more realistic to compute the medium depth than the depth of the maximum response. DIC functions have been known so far only for simple colinear arrays, the dipole equatorial array and two focused arrays. Here we provide a summary about the depth of investigation values of various dipole-dipole arrays (for parallel, perpendicular, radial, azimuthal ones), and for the most important noncolinear and focused arrays. Depth of investigation values are computed from both approaches. DIC functions (obtained by a new analytical
formula) are also presented, as illustrations. The analytical formula can be used to compute DIC function
of any surface geoelectric array. A systematic interpretation of the resulting depth of investigation values provides simple but useful thumb-rules for practical applications
The Jagiellonians in Europe: Dynastic Diplomacy and Foreign Relations – Die Jagiellonen in Europa: Dynastische und Diplomatische Beziehungen.
This volume is the proceedings of an international conference and workshop “The
Jagiellonians in Europe: Dynastic Diplomacy and Foreign Relations” to be held on
10
-
11 April 2015 at the Faculty of Arts and Humanities of the University of Debrecen.
The organ
izers would like to give a broad, different approach, other than the usual
national
–
for us, Hungarian spectacle
–
and view the dynasty in a European context,
mainly concentrating on the European relations and view of Poland, Bohemia and
Hungary. Since ou
r perspective is pre
-
1526, based on our Hungarian
-
centred
researches, we would mainly focus on the earlier periods, 15
th
and early 16
th
century.
We are honoured to introduce 20 speakers in six sessions from several countries
–
beyond the ones that had bee
n under the rule of the Jagiellonian dynasty, i.e. Hun-
gary, Bohemia, Croatia, Slovakia and Poland
–
from England, Germany and
Romania. We are also pleased to welcome Dr. Paul Srodecki (Universität Giessen)
as a guest speaker who will launch the program wit
h a key
-
note lecture. Our aim
was however to organize a roundtable discussion as well, where the scholars of the
different research centres throughout Europe could have an opportunity to have a
discussion over the place and role of the Jagiellonian dynasty
in the European
constellation of the 15
th
and early 16
th
centuries
Műveltség és társadalmi szerepek: arisztokraták Magyarországon és Európában. Learning, Intellect and Social Roles: Aristocrats in Hungary and Europe
2013 szeptemberében az OTKA pályázat tagj
ai meghívást kaptak az Eperjesi
Egyetemre, a „M
ű
veltség és társadalmi szerepek: a 17–20. századi arisztokrácia
m
ű
veltsége, m
ű
vészetet és az oktatás fejlesztését, a birtokok építését, modernizá-
cióját támogató tevékenysége” cím
ű
konferenciára, amelyet a város polgármes-
tere mellett a kassai magyar f
ő
konzul asszony nyitott meg. A 22 el
ő
adó közül
többen elküldték tanulmányaikat jelen kötetünkbe.
Többek között:
Az MTA-DE Lendület Magyarország a középkori Európában kutatócsoport tagjainak tanulmányai
Bárány Attila, „English chivalric insignia in Hungary”, pp. 73-96.;
Györkös Attila, „Aventurier sans scrupule ou héros national? La carrière de Christophe Frangepan, aristocrate de la Renaissance”
Novák Ádám, „The Seal Usage of Hungarian Aristocrats in the 15th century”, pp. 59-72
More effective boilerplate removal – the GoldMiner algorithm
Abstract—The ever-increasing web is an important source for building large-scale corpora. However, dynamically generated web pages often contain much irrelevant and duplicated text, which impairs the quality of the corpus. To ensure the high quality of web-based corpora, a good boilerplate removal algorithm is needed to extract only the relevant content from web pages. In this article, we present an automatic text extraction procedure, GoldMiner, which by enhancing a previously published boilerplate removal algorithm, minimizes the occurrence of irrelevant duplicated content in corpora, and keeps the text more coherent than previous tools. The algorithm exploits similarities in the HTML structure of pages coming from the same domain. A new evaluation document set (CleanPortalEval) is also presented, which can demonstrate the power of boilerplate removal algorithms for web portal pages. Index Terms—corpus building, boilerplate removal, the web as corpus I. THE TASK When constructing corpora from web content, the extraction of relevant text from dynamically generated HTML pages is not a trivial task due to the great amount of irrelevant repeated text that needs to be identified and removed so that it does not compromise the quality of the corpus. This task, called boilerplate removal in the literature, consists of categorizing HTML content as valuable vs. irrelevant, filtering out menus, headers and footers, advertisements, and structure repeated on many pages. In this paper, we present a boilerplate removal algorithm that removes irrelevant content from crawled content more effectively than previous tools. The structure of our paper is as follows. First, we present some tools that we used as baselines when evaluating the performance of our system. The algorithm implemented in one of these tools, jusText, is also used as part of our enhanced boilerplate removal algorithm. This is followed by the presentation of the enhanced system, called GoldMiner, and the evaluation of the results
Restoring the intended structure of Hungarian ophthalmology documents
Clinical documents have been an emerg-
ing target of natural language applications.
Information stored in documents created
at clinical settings can be very useful for
doctors or medical experts. However,
the way these documents are created and
stored is often a hindrance to accessing
their content. In this paper, an automatic
method for restoring the intended structure
of Hungarian ophthalmology documents is
described. The statements in these docu-
ments in their original form appeared un-
der various subheadings. We successfully
applied our method for reassigning the
correct heading for each line based on its
content. The results show that the cate-
gorization was correct for 81.99% of the
statements in our testset, compared to a
human categorization
Nem felügyelt módszerek alkalmazása releváns kifejezések azonosítására és csoportosítására klinikai dokumentumokban
A kórházi körülmények között létrejövő klinikai dokumentu-
mok feldolgozása a nyelvtechnológia egyik központi kutatás
i területévé
vált az utóbbi időben. A más jellegű, általános nyelvezetű sz
övegek feldolgozására használt kész eszközök azonban nem alkalmazhatóak, illetve
gyengén teljesítenek a speciális orvosi szövegek esetén. To
vábbá számos
olyan feladat van, amelyek során a szakkifejezések azonosítás
a és a közöt
tük lévő kapcsolatok meghatározása nagyon fontos lépés, azo
nban csak
külső lexikai erőforrások, tezauruszok és ontológiák segít
ségével oldhatók
meg. Az olyan kisebb nyelvek esetén, mint a magyar, ilyen tudásbázisok
nem állnak rendelkezésre. Ezért a szövegekben lévő informác
iók annotálása és rendszerezése emberi szakértői munkát igényel. Ebb
en a cikkben
bemutatjuk,hogy statisztikai módszerekkel milyen módon al
akíthatók át
a nyers dokumentumok egy olyan előfeldolgozott,részben str
ukturált for
mára,ami ezt az emberi munkát könnyebbé teszi. A csupán a korpusz fel
használásával alkalmazott modulok felismerik és feloldják a r
övidítéseket,
azonosítják a többszavas kifejezéseket és meghatározzák azok
hasonlóságát. Végül létrehoztuk a szövegek egy magasabb szintű repre
zentációját,
ahol az egyes kifejezések helyére a hasonlóságuk alapján kialakított klasz
terek azonosítóját helyettesítve a szövegek egyszerűsíthe
tőek, a gyakran
ismétlődő mintázatok általános alakja meghatározható
- …