Search CORE

357 research outputs found

Evaluating HeLI with non-linear mappings

Author: Jauhiainen Heidi Annika
Jauhiainen Tommi Sakari
Linden Bo Krister Johan
Publication venue: The Association for Computational Linguistics
Publication date: 01/01/2017
Field of study

Peer reviewe

Helsingin yliopiston digitaalinen arkisto

Language identification in texts

Author: Jauhiainen Tommi
Publication venue: 'University of Helsinki Libraries'
Publication date: 28/05/2019
Field of study

This work investigates the task of identifying the language of digitally encoded text. Automatic methods for language identification have been developed since the 1960s. During the years, the significance of language identification as an important preprocessing element has grown at the same time as other natural language processing systems have become mainstream in day-to-day applications. The methods used for language identification are mostly shared with other text classification tasks as almost any modern machine learning method can be trained to distinguish between different languages. We begin the work by taking a detailed look at the research so far conducted in the field. As part of this work, we provide the largest survey on language identification available so far. Comparing the performance of different language identification methods presented in the literature has been difficult in the past. Before the introduction of a series of language identification shared tasks at the VarDial workshops, there were no widely accepted standard datasets which could be used to compare different methods. The shared tasks mostly concentrated on the issue of distinguishing between similar languages, but other open issues relating to language identification were addressed as well. In this work, we present the methods for language identification we have developed while participating in the shared tasks from 2015 to 2017. Most of the research for this work was accomplished within the Finno-Ugric Languages and the Internet project. In the project, our goal was to find and collect texts written in rare Uralic languages on the Internet. In addition to the open issues addressed at the shared tasks, we dealt with issues concerning domain compatibility and the number of languages. We created an evaluation set-up for addressing short out-of-domain texts in a large number of languages. Using the set-up, we evaluated our own method as well as other promising methods from the literature. The last issue we address in this work is the handling of multilingual documents. We developed a method for language set identification and used a previously published dataset to evaluate its performance.Tässä väitöskirjassa tutkitaan digitaalisessa muodossa olevan tekstin kielen automaattista tunnistamista. Tekstin kielen tunnistamisen automaattisia menetelmiä on kehitetty jo 1960-luvulta lähtien. Kuluneiden vuosikymmenien aikana kielentunnistamisen merkitys osana laajempia tietojärjestelmiä on vähitellen kasvanut. Tekstin kieli on tarpeellista tunnistaa, jotta tekstin jatkokäsittelyssä osataan käyttää sopivia kieliteknologisia menetelmiä. Tekstin kielentunnistus on kieleltään tai kieliltään tuntemattoman tekstin kielen tai kielien määrittämistä. Suurimmaksi osaksi kielentunnistukseen käytettyjä menetelmiä käytetään tai voidaan käyttää tekstin luokitteluun myös tekstin muiden ominaisuuksien, kuten aihealueen, perusteella. Tähän artikkeliväitöskirjaan kuuluvassa katsausartikkelissa esittelemme laajasti kielentunnistuksen tähänastista tutkimusta ja käymme kattavasti lävitse kielentunnistukseen tähän mennessä käytetyt menetelmät. Seuraavat kolme väistöskirjan artikkelia esittelevät ne kielentunnistuksen menetelmät joita käytimme VarDial työpajojen yhteydessä järjestetyissä kansainvälisissä kielentunnistuskilpailuissa vuodesta 2015 vuoteen 2017. Suurin osa tämän väitöskirjan tutkimuksesta on tehty osana Koneen säätiön rahoittamaa suomalais-ugrilaiset kielet ja internet -hanketta. Hankkeen päämääränä oli löytää internetistä tekstejä, jotka olivat kirjoitettu harvinaisemmilla uralilaisilla kielillä ja väitöskirjan viides artikkeli keskittyy projektin alkuvaiheiden kuvaamiseen. Väitöskirjan kuudes artikkeli kertoo miten hankkeen verkkoharavaan liitetty kielentunnistin evaluoitiin vaativasssa testiympäristössä, joka sisälsi tekstejä kirjoitettuna 285 eri kielellä. Seitsemäs ja viimeinen artikkeli käsittelee monikielisten tekstien kielivalikoiman selvittämistä

Helsingin yliopiston digitaalinen arkisto

Precision calculations for gamma gamma -> 4 fermions and H -> WW/ZZ -> 4 fermions

Author: Bredenstein Axel
Publication venue: Ludwig-Maximilians-Universität München
Publication date: 08/05/2006
Field of study

In dieser Arbeit werden Präzisionsrechnungen für die Prozesse gamma gamma -> 4 Fermionen und H -> WW/ZZ -> 4 Fermionen vorgestellt. An einem gamma-gamma-Collider werden wegen des großen Wirkungsquerschnitts genaue theoretische Vorhersagen für die Prozesse gamma gamma -> WW -> 4f benötigt. Mittels dieser Prozesse lassen sich unter anderem die Eichboson-Kopplungen gamma-W-W und gamma-gamma-W-W messen. Außerdem wird über virtuelle geladene, massive Teilchen die Reaktion gamma gamma -> H -> WW/ZZ -> 4f ermöglicht. Auf diese Weise läßt sich die Kopplung gamma-gamma-H messen, und relativ schwere Higgs-Bosonen könnten erzeugt werden. Für Massen MH > 135 GeV zerfällt das Higgs-Boson hauptsächlich über W- und Z-Bosonen in vier Fermionen. Bei der kinematischen Rekonstruktion dieser Zerfälle spielen Quanten-Korrekturen, insbesondere Photon-Bremsstrahlung, eine wichtige Rolle. Die Einbeziehung der Zerfälle der Eichbosonen in Fermionen ist zum einen wichtig, weil unterhalb von MH ≈ 2MW/MZ „off-shell“-Effekte der Eichbosonen berücksichtigt werden müssen. Zum anderen lassen sich mit Hilfe von Winkel- und Energie-Verteilungen der Fermionen der Spin und die CP-Eigenschaften des Higgs-Bosons bestimmen. Besonders geeignet für den Vergleich theoretischer Vorhersagen mit experimentellen Daten sind Monte-Carlo-Generatoren. Für die Prozesse gamma gamma -> 4f und H -> WW/ZZ -> 4f werden solche Programme konstruiert. Sie liefern zum einen die kompletten Vorhersagen in niedrigster Ordnung der Störungstheorie. Zum anderen enthalten sie Quanten-Korrekturen, die sich unterteilen lassen in reelle Korrekturen, welche durch Photon-Bremsstrahlung gegeben sind, und virtuelle Korrekturen. Während die virtuellen Quanten-Korrekturen zu gamma gamma -> WW -> 4f in der Doppel-Pol-Näherung berechnet werden, in der nur die doppelt resonanten Beiträge berücksichtigt werden, werden zu den Prozessen H -> WW/ZZ -> 4f die kompletten Quantenkorrekturen der Ordnung O(alpha) berechnet. Für die Behandlung der in den virtuellen und reellen Korrekturen auftretenden infraroten Divergenzen („soft“ und „collinear“) wird wahlweise die Dipol-Subtraktions-Methode oder die Phase-Space-Slicing-Methode verwendet. Nicht bei allen Observablen müssen sich die bei kollinearer Photon-Abstrahlung auftretenden Massen-Singularitäten gegenseitig aufheben. Um auch solche nicht-kollinear-sichere Observablen untersuchen zu können, wird die Dipol-Subtraktions-Methode diesbezüglich erweitert. Die Diskussion der numerischen Ergebnisse umfasst den Einfluss eines realistischen Photon-Spektrums auf die Wirkungsquerschnitte, das Potential eines gamma-gamma-Colliders, Grenzen an anomale Eichboson-Kopplungen zu setzen, sowie verschiedene Verteilungen in der Invarianten Masse, in der Energie und in Winkeln, die für eine Rekonstruktion der Eichbosonen und die Bestimmung der Eigenschaften des Higgs-Bosons genutzt werden können

Digitale Hochschulschriften der LMU

HeLI-OTS, Off-the-shelf Language Identifier for Text

Author: Jauhiainen Heidi
Jauhiainen Tommi
Lindén Krister
Publication venue: European Language Resources Association (ELRA)
Publication date: 01/01/2022
Field of study

Peer reviewe

Helsingin yliopiston digitaalinen arkisto

Uralic Language Identification (ULI) 2020 shared task dataset and the Wanca 2017 corpora

Author: Jauhiainen Heidi
Jauhiainen Tommi
Linden Krister
Partanen Niko
Publication venue: International Committee on Computational Linguistics (ICCL)
Publication date: 01/01/2020
Field of study

Peer reviewe

arXiv.org e-Print Archive

Helsingin yliopiston digitaalinen arkisto

Helical Jet in the Gravitationally Lensed Blazar PKS1830-211

Author: Begelman
Blandford
C. Jin
Carilli
Chengalur
Courbin
Courbin
Frye
Garrett
Garrett
Gopal-Krishna
Gower
Guirado
Hagiwara
Hjellming
Jauncey
Jin
Jones
Kochanek
Kovner
Lehár
Leick
Liang
Lidman
Lovell
Lovell
M. A. Garrett
Maness
Mathur
Mattox
Nair
Oshima
Rao
Rieger
Romero
Romero
Romero
Roos
Roos
S. Nair
Schramm
Subrahmanyan
Van Der Laan
Van Ommen
Villata
Villata
Wiklind
Wiklind
Winn
Yoo
Publication venue: 'Wiley'
Publication date: 01/01/2005
Field of study

Recent radio VLBI observations of the complex gravitationally lensed system PKS1830-211 have thrown up some questions with regard to the processes occuring at the heart of the blazar source at a redshift of 2.51, which is viewed almost straight down the jet axis. This work links, by a model of a helical jet tracked by ballistically ejected plasmons from a precessing nozzle, observations on the scale of tens of microarcseconds to those on the scale of milliarcseconds. An observed jet precession period of 1.08 years is inferred from the model, translating to an intrinsic period of 30.8 years for a source at redshift 2.51 and an assumed jet bulk velocity of 0.99 c. This fits well with the picture of an active galactic nucleus hosting a binary black hole system at its centre, with the jet emitted by one member of the system, and the precession as being due to its orbital motion around its companion.Comment: Accepted for publication in the MNRA

arXiv.org e-Print Archive

CiteSeerX

Crossref

Iterative Language Model Adaptation for Indo-Aryan Language Identification

Author: Jauhiainen Heidi Annika
Jauhiainen Tommi Sakari
Linden Bo Krister Johan
Publication venue: The Association for Computational Linguistics
Publication date: 01/08/2018
Field of study

Peer reviewe

Helsingin yliopiston digitaalinen arkisto

Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018)

Author
Publication venue: The Association for Computational Linguistics
Publication date: 01/01/2018
Field of study

Peer reviewe

Helsingin yliopiston digitaalinen arkisto