    On the Use of Parsing for Named Entity Recognition

    [Abstract] Parsing is a core natural language processing technique that can be used to obtain the structure underlying sentences in human languages. Named entity recognition (NER) is the task of identifying the entities that appear in a text. NER is a challenging natural language processing task that is essential to extract knowledge from texts in multiple domains, ranging from financial to medical. It is intuitive that the structure of a text can be helpful to determine whether or not a certain portion of it is an entity and if so, to establish its concrete limits. However, parsing has been a relatively little-used technique in NER systems, since most of them have chosen to consider shallow approaches to deal with text. In this work, we study the characteristics of NER, a task that is far from being solved despite its long history; we analyze the latest advances in parsing that make its use advisable in NER settings; we review the different approaches to NER that make use of syntactic information; and we propose a new way of using parsing in NER based on casting parsing itself as a sequence labeling task.Xunta de Galicia; ED431C 2020/11Xunta de Galicia; ED431G 2019/01This work has been funded by MINECO, AEI and FEDER of UE through the ANSWER-ASAP project (TIN2017-85160-C2-1-R); and by Xunta de Galicia through a Competitive Reference Group grant (ED431C 2020/11). CITIC, as Research Center of the Galician University System, is funded by the Consellería de Educación, Universidade e Formación Profesional of the Xunta de Galicia through the European Regional Development Fund (ERDF/FEDER) with 80%, the Galicia ERDF 2014-20 Operational Programme, and the remaining 20% from the Secretaría Xeral de Universidades (Ref. ED431G 2019/01). Carlos Gómez-Rodríguez has also received funding from the European Research Council (ERC), under the European Union’s Horizon 2020 research and innovation programme (FASTPARSE, Grant No. 714150)

    Contributions to the Theory of Finite-State Based Grammars

    This dissertation is a theoretical study of finite-state based grammars used in natural language processing. The study is concerned with certain varieties of finite-state intersection grammars (FSIG) whose parsers define regular relations between surface strings and annotated surface strings. The study focuses on the following three aspects of FSIGs: (i) Computational complexity of grammars under limiting parameters In the study, the computational complexity in practical natural language processing is approached through performance-motivated parameters on structural complexity. Each parameter splits some grammars in the Chomsky hierarchy into an infinite set of subset approximations. When the approximations are regular, they seem to fall into the logarithmic-time hierarchyand the dot-depth hierarchy of star-free regular languages. This theoretical result is important and possibly relevant to grammar induction. (ii) Linguistically applicable structural representations Related to the linguistically applicable representations of syntactic entities, the study contains new bracketing schemes that cope with dependency links, left- and right branching, crossing dependencies and spurious ambiguity. New grammar representations that resemble the Chomsky-Schützenberger representation of context-free languages are presented in the study, and they include, in particular, representations for mildly context-sensitive non-projective dependency grammars whose performance-motivated approximations are linear time parseable. (iii) Compilation and simplification of linguistic constraints Efficient compilation methods for certain regular operations such as generalized restriction are presented. These include an elegant algorithm that has already been adopted as the approach in a proprietary finite-state tool. In addition to the compilation methods, an approach to on-the-fly simplifications of finite-state representations for parse forests is sketched. These findings are tightly coupled with each other under the theme of locality. I argue that the findings help us to develop better, linguistically oriented formalisms for finite-state parsing and to develop more efficient parsers for natural language processing. Avainsanat: syntactic parsing, finite-state automata, dependency grammar, first-order logic, linguistic performance, star-free regular approximations, mildly context-sensitive grammar

    Essays on European penology: socio-political and spatial dimensions of its making

    Una grande quantità di ricerche si concentra sull'Europa e le sue interazioni con altri spazi attraverso l'esame delle politiche dell'Unione Europea. Coloro che hanno creato e contribuito alla letteratura sull'Europa come potere normativo mettono un'enfasi speciale sull'Unione Europea e sul suo significato, trascurando la cooperazione normativa tra questa organizzazione e il Consiglio d'Europa. Basandosi sull'argomento delle due Europe, questa tesi cerca di andare oltre la concettualizzazione iniziale esclusiva dell'Europa politica. Concentrandosi su un fenomeno relativamente nuovo - la penologia europea, un costrutto giuridico-politico con una complessa architettura normativa e istituzionale - la presente ricerca propone uno sguardo nuovo al dibattito sulla produzione e diffusione delle norme, esaminando le interazioni tra entità internazionali, europee e nazionali. Avendo in mente le istituzioni e le loro caratteristiche specifiche che partecipano alla creazione del sistema penologico europeo (per esempio, consultivo, di controllo, preventivo, giudiziario), la tesi con i suoi quattro saggi indipendenti esplora diverse dimensioni della penologia europea. In primo luogo, per andare oltre le interpretazioni semplicistiche degli studi sulle norme in cui le istituzioni europee sviluppano valori/norme per poi diffonderli su specifici territori di interesse, la presente tesi problematizza questa questione contestualizzando la partecipazione del Caucaso del Sud nella costruzione delle norme penologiche europee. Per fare ciò, viene dato un breve resoconto della creazione/sviluppo delle norme all'interno di una particolare istituzione - la Corte Europea dei Diritti dell'Uomo. Inoltre, per comprendere la base di conoscenza stessa, la tesi si rivolge al gergo della penologia europea. Un'indagine corpus linguistica delle pratiche discorsive istituzionali rivela la specificità di questo sistema di conoscenza e rivela una forte presenza del discorso sui diritti umani fortemente incorporato e inquadrato dalla Convenzione Europea dei Diritti Umani. Per localizzare la penologia europea all'interno delle tendenze moderne della giustizia attuariale dove la strategia riabilitativa delle prigioni è venuta meno di fronte alle correnti neoliberali del managerialismo, la tesi conduce un'analisi diacronica del cambiamento semantico nella penologia europea. Nel fare ciò, cerca di localizzare i cambiamenti semantici che avvengono nel gergo penologico. La ricerca rivela tre dimensioni: (i) perseveranza del discorso sui diritti umani, (ii) processo di apprendimento dalle controparti globali, e (iii) un lento passaggio da una penologia incentrata sul benessere a una mentalità ossessionata dal rischio e dalla gestione. Infine, per comprendere l'intero spettro di influenze che avvengono all'interno della penologia europea, la tesi si concentra sugli attori che partecipano alla co-costruzione di questa base di conoscenza. Tre categorie di entità, vale a dire organizzazioni, entità geopolitiche e documenti/norme legali, sembrano influenzare la penologia europea in modi diversi