357 research outputs found
Language identification in texts
This work investigates the task of identifying the language of digitally encoded text. Automatic methods for language identification have been developed since the 1960s. During the years, the significance of language identification as an important preprocessing element has grown at the same time as other natural language processing systems have become mainstream in day-to-day applications.
The methods used for language identification are mostly shared with other text classification tasks as almost any modern machine learning method can be trained to distinguish between different languages. We begin the work by taking a detailed look at the research so far conducted in the field. As part of this work, we provide the largest survey on language identification available so far.
Comparing the performance of different language identification methods presented in the literature has been difficult in the past. Before the introduction of a series of language identification shared tasks at the VarDial workshops, there were no widely accepted standard datasets which could be used to compare different methods. The shared tasks mostly concentrated on the issue of distinguishing between similar languages, but other open issues relating to language identification were addressed as well. In this work, we present the methods for language identification we have developed while participating in the shared tasks from 2015 to 2017.
Most of the research for this work was accomplished within the Finno-Ugric Languages and the Internet project. In the project, our goal was to find and collect texts written in rare Uralic languages on the Internet. In addition to the open issues addressed at the shared tasks, we dealt with issues concerning domain compatibility and the number of languages. We created an evaluation set-up for addressing short out-of-domain texts in a large number of languages. Using the set-up, we evaluated our own method as well as other promising methods from the literature.
The last issue we address in this work is the handling of multilingual documents. We developed a method for language set identification and used a previously published dataset to evaluate its performance.Tässä väitöskirjassa tutkitaan digitaalisessa muodossa olevan tekstin kielen automaattista tunnistamista. Tekstin kielen tunnistamisen automaattisia menetelmiä on kehitetty jo 1960-luvulta lähtien. Kuluneiden vuosikymmenien aikana kielentunnistamisen merkitys osana laajempia tietojärjestelmiä on vähitellen kasvanut. Tekstin kieli on tarpeellista tunnistaa, jotta tekstin jatkokäsittelyssä osataan käyttää sopivia kieliteknologisia menetelmiä.
Tekstin kielentunnistus on kieleltään tai kieliltään tuntemattoman tekstin kielen tai kielien määrittämistä. Suurimmaksi osaksi kielentunnistukseen käytettyjä menetelmiä käytetään tai voidaan käyttää tekstin luokitteluun myös tekstin muiden ominaisuuksien, kuten aihealueen, perusteella. Tähän artikkeliväitöskirjaan kuuluvassa katsausartikkelissa esittelemme laajasti kielentunnistuksen tähänastista tutkimusta ja käymme kattavasti lävitse kielentunnistukseen tähän mennessä käytetyt menetelmät.
Seuraavat kolme väistöskirjan artikkelia esittelevät ne kielentunnistuksen menetelmät joita käytimme VarDial työpajojen yhteydessä järjestetyissä kansainvälisissä kielentunnistuskilpailuissa vuodesta 2015 vuoteen 2017.
Suurin osa tämän väitöskirjan tutkimuksesta on tehty osana Koneen säätiön rahoittamaa suomalais-ugrilaiset kielet ja internet -hanketta. Hankkeen päämääränä oli löytää internetistä tekstejä, jotka olivat kirjoitettu harvinaisemmilla uralilaisilla kielillä ja väitöskirjan viides artikkeli keskittyy projektin alkuvaiheiden kuvaamiseen. Väitöskirjan kuudes artikkeli kertoo miten hankkeen verkkoharavaan liitetty kielentunnistin evaluoitiin vaativasssa testiympäristössä, joka sisälsi tekstejä kirjoitettuna 285 eri kielellä.
Seitsemäs ja viimeinen artikkeli käsittelee monikielisten tekstien kielivalikoiman selvittämistä
Precision calculations for gamma gamma -> 4 fermions and H -> WW/ZZ -> 4 fermions
In dieser Arbeit werden Präzisionsrechnungen für die Prozesse gamma gamma -> 4 Fermionen und H -> WW/ZZ -> 4 Fermionen vorgestellt.
An einem gamma-gamma-Collider werden wegen des großen Wirkungsquerschnitts genaue theoretische Vorhersagen für die Prozesse gamma gamma -> WW -> 4f benötigt. Mittels dieser Prozesse lassen sich unter anderem die
Eichboson-Kopplungen gamma-W-W und gamma-gamma-W-W messen. Außerdem wird über virtuelle geladene, massive Teilchen
die Reaktion gamma gamma -> H -> WW/ZZ -> 4f
ermöglicht. Auf diese Weise läßt sich die Kopplung gamma-gamma-H messen, und relativ schwere Higgs-Bosonen könnten erzeugt werden.
Für Massen MH > 135 GeV zerfällt das Higgs-Boson hauptsächlich über W- und Z-Bosonen in vier Fermionen. Bei der kinematischen Rekonstruktion dieser Zerfälle
spielen Quanten-Korrekturen, insbesondere Photon-Bremsstrahlung, eine wichtige Rolle. Die Einbeziehung der Zerfälle der Eichbosonen in Fermionen ist zum einen wichtig, weil unterhalb von MH ≈ 2MW/MZ „off-shell“-Effekte der Eichbosonen berücksichtigt werden müssen. Zum anderen lassen sich mit Hilfe von Winkel- und Energie-Verteilungen der Fermionen der Spin und die CP-Eigenschaften des Higgs-Bosons bestimmen.
Besonders geeignet für den Vergleich theoretischer Vorhersagen mit experimentellen Daten sind Monte-Carlo-Generatoren. Für die Prozesse gamma gamma -> 4f und H -> WW/ZZ -> 4f werden solche Programme konstruiert. Sie liefern zum einen die kompletten Vorhersagen in niedrigster Ordnung der Störungstheorie. Zum anderen enthalten sie Quanten-Korrekturen, die sich unterteilen lassen in reelle Korrekturen, welche durch Photon-Bremsstrahlung gegeben sind, und virtuelle Korrekturen. Während die virtuellen Quanten-Korrekturen zu gamma gamma -> WW -> 4f in der Doppel-Pol-Näherung berechnet werden, in der nur die doppelt resonanten Beiträge berücksichtigt werden, werden zu den Prozessen H -> WW/ZZ -> 4f die kompletten Quantenkorrekturen der Ordnung O(alpha)
berechnet. Für die Behandlung der in den virtuellen und reellen Korrekturen auftretenden infraroten Divergenzen („soft“ und „collinear“) wird wahlweise die Dipol-Subtraktions-Methode oder die Phase-Space-Slicing-Methode verwendet.
Nicht bei allen Observablen müssen sich die bei kollinearer Photon-Abstrahlung auftretenden Massen-Singularitäten gegenseitig aufheben. Um auch solche nicht-kollinear-sichere Observablen untersuchen zu können, wird die Dipol-Subtraktions-Methode diesbezüglich
erweitert.
Die Diskussion der numerischen Ergebnisse umfasst den Einfluss eines realistischen Photon-Spektrums auf die Wirkungsquerschnitte, das Potential eines gamma-gamma-Colliders, Grenzen an anomale
Eichboson-Kopplungen zu setzen, sowie verschiedene Verteilungen in der Invarianten
Masse, in der Energie und in Winkeln, die für eine Rekonstruktion der Eichbosonen und die
Bestimmung der Eigenschaften des Higgs-Bosons genutzt werden können
Uralic Language Identification (ULI) 2020 shared task dataset and the Wanca 2017 corpora
Peer reviewe
Helical Jet in the Gravitationally Lensed Blazar PKS1830-211
Recent radio VLBI observations of the complex gravitationally lensed system
PKS1830-211 have thrown up some questions with regard to the processes occuring
at the heart of the blazar source at a redshift of 2.51, which is viewed almost
straight down the jet axis. This work links, by a model of a helical jet
tracked by ballistically ejected plasmons from a precessing nozzle,
observations on the scale of tens of microarcseconds to those on the scale of
milliarcseconds. An observed jet precession period of 1.08 years is inferred
from the model, translating to an intrinsic period of 30.8 years for a source
at redshift 2.51 and an assumed jet bulk velocity of 0.99 c. This fits well
with the picture of an active galactic nucleus hosting a binary black hole
system at its centre, with the jet emitted by one member of the system, and the
precession as being due to its orbital motion around its companion.Comment: Accepted for publication in the MNRA
Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018)
Peer reviewe
- …