183 research outputs found

    Methods for improving entity linking and exploiting social media messages across crises

    Get PDF
    Entity Linking (EL) is the task of automatically identifying entity mentions in texts and resolving them to a corresponding entity in a reference knowledge base (KB). There is a large number of tools available for different types of documents and domains, however the literature in entity linking has shown the quality of a tool varies across different corpus and depends on specific characteristics of the corpus it is applied to. Moreover the lack of precision on particularly ambiguous mentions often spoils the usefulness of automated disambiguation results in real world applications. In the first part of this thesis I explore an approximation of the difficulty to link entity mentions and frame it as a supervised classification task. Classifying difficult to disambiguate entity mentions can facilitate identifying critical cases as part of a semi-automated system, while detecting latent corpus characteristics that affect the entity linking performance. Moreover, despiteless the large number of entity linking tools that have been proposed throughout the past years, some tools work better on short mentions while others perform better when there is more contextual information. To this end, I proposed a solution by exploiting results from distinct entity linking tools on the same corpus by leveraging their individual strengths on a per-mention basis. The proposed solution demonstrated to be effective and outperformed the individual entity systems employed in a series of experiments. An important component in the majority of the entity linking tools is the probability that a mentions links to one entity in a reference knowledge base, and the computation of this probability is usually done over a static snapshot of a reference KB. However, an entity’s popularity is temporally sensitive and may change due to short term events. Moreover, these changes might be then reflected in a KB and EL tools can produce different results for a given mention at different times. I investigated the prior probability change over time and the overall disambiguation performance using different KB from different time periods. The second part of this thesis is mainly concerned with short texts. Social media has become an integral part of the modern society. Twitter, for instance, is one of the most popular social media platforms around the world that enables people to share their opinions and post short messages about any subject on a daily basis. At first I presented one approach to identifying informative messages during catastrophic events using deep learning techniques. By automatically detecting informative messages posted by users during major events, it can enable professionals involved in crisis management to better estimate damages with only relevant information posted on social media channels, as well as to act immediately. Moreover I have also performed an analysis study on Twitter messages posted during the Covid-19 pandemic. Initially I collected 4 million tweets posted in Portuguese since the begining of the pandemic and provided an analysis of the debate aroud the pandemic. I used topic modeling, sentiment analysis and hashtags recomendation techniques to provide isights around the online discussion of the Covid-19 pandemic

    Exploratory Search on Mobile Devices

    Get PDF
    The goal of this thesis is to provide a general framework (MobEx) for exploratory search especially on mobile devices. The central part is the design, implementation, and evaluation of several core modules for on-demand unsupervised information extraction well suited for exploratory search on mobile devices and creating the MobEx framework. These core processing elements, combined with a multitouch - able user interface specially designed for two families of mobile devices, i.e. smartphones and tablets, have been finally implemented in a research prototype. The initial information request, in form of a query topic description, is issued online by a user to the system. The system then retrieves web snippets by using standard search engines. These snippets are passed through a chain of NLP components which perform an ondemand or ad-hoc interactive Query Disambiguation, Named Entity Recognition, and Relation Extraction task. By on-demand or ad-hoc we mean the components are capable to perform their operations on an unrestricted open domain within special time constraints. The result of the whole process is a topic graph containing the detected associated topics as nodes and the extracted relation ships as labelled edges between the nodes. The Topic Graph is presented to the user in different ways depending on the size of the device she is using. Various evaluations have been conducted that help us to understand the potentials and limitations of the framework and the prototype

    On Pseudorelatives and Human Sentence Parsing

    Get PDF
    The debate over whether universal parsing mechanisms are necessary to explain sentence comprehension is clearly a fundamental one for cognitive science. This dissertation focuses on the relation between syntactic ambiguity and principles of economy in the parsing of ambiguous Pseudo Relative (PR)/ Relative Clause (RC) strings. While the principles of locality would predict local attachment in (exclusive) RC contexts, PR-first Hypothesis (Grillo & Costa, 2014) predicts high attachment (corresponding to a PR parse) in ambiguous PR/RC contexts. We test the offline and online effects of PR availability in Spanish using a variety of research methods (eye-tracking while reading, sentence completion task, forced-choice questionnaire, acceptability judgement), while also looking at the interaction with other factors such as aspectual properties of the embedded predicate. The results reported here are robust across studies and show an influence of PRs on the parsing of RCs: when PRs are not a confound, and relevant factors are controlled (e.g. length of the clauses), locality principles apply to RC attachment; when PRs are available, attachment preferences shift toward the non-local option. These results support the universality of parsing principles and suggest that crosslinguistic variation in RC attachment is epiphenomenal and largely attributable to the asymmetric availability of PRs across languages. This dissertation also provides a detailed description on PR-licensing contexts that might be useful for future research on RC attachment preferences to avoid the PR confound.O debate sobre se os mecanismos de análise universal são necessários para explicar a compreensão de frases é claramente fundamental para a Ciência Cognitiva. Esta dissertação centra-se na relação entre ambiguidade sintática e princípios de economia na análise de estruturaspseudorelativas (PR)/ orações relativas (OR) ambíguas. Enquanto os princípios de localidade prediriam a ligação local em contextos (exclusivos) das OR, a PR-first Hypothesis (Grillo & Costa, 2014) prevê uma alta ligação (correspondente a uma análise da PR) em contextos PR/OR ambíguos. Nesta tese testamos os efeitos offline e online da disponibilidade das PRs em Espanhol, utilizando uma variedade de métodos de investigação (técnica de registo dos comportamentos oculares (eye-tracking) durante a leitura, tarefa de preenchimento de frases, questionários, julgamento da aceitabilidade), ao mesmo tempo que também analisamos a interação com as propriedades aspetuais do predicado encaixado. Os resultados obtidos nesta dissertação mostram uma influência das PRs na análise das ORs: quando as PRs estão disponíveis e os fatores relevantes são controlados (por exemplo, o comprimento das orações), os princípios da localidade aplicam-se à adjunção das ORs; quando as PRs estão disponíveis, as preferências de adjunção mudam para a opção não-local. Estes resultados apoiam a universalidade dos princípios de análise e sugerem que a variação linguística na adjunção da OR é epifenomenal e amplamente atribuível à disponibilidade assimétrica das PRs entre línguas. Esta dissertação também fornece uma descrição detalhada dos contextos de licenciamento da PR, que podem ser úteis para evitar a ambiguidade PR/OR em futuras pesquisas sobre as preferências da ligação da OR

    Perception of phrasal prosody in the acquisition of European Portuguese

    Get PDF
    A central issue in language acquisition is the segmentation of speech into linguistic units and structures. This thesis examines the role played by phrasal prosody in speech segmentation in the acquisition of European Portuguese, both in the processing of globally ambiguous sentences by 4 and 5 year old children and in early word segmentation by 12 month-old infants. Past studies have shown that phrasal prosody is used by adults in ambiguity resolution, for example to disambiguate syntactically ambiguous sentences involving a low or high attachment interpretation of a given phrase (e.g, Hide the rabbit with a cloth). In a first exploratory experiment, and given previous unclear findings in the literature on European Portuguese, we investigated whether prosodic phrasing might guide speech chunking and interpretation of these globally ambiguous sentences by adult listeners. In an eye-tracking experiment, which also included a pointing task, we found that EP adult speakers were not able to use phrasal prosody to disambiguate the structures tested. Both the results from eye gaze and the pointing task indicated the presence of a high attachment preference in the language, regardless of phrasal prosody. These findings required a better understanding of adult interpretation of these utterances before a productive study could be conducted with young children. Building on the lessons learned from this exploratory study, we conducted two new experiments examining young children (and adults) abilities to use prosody, in a different sort of globally ambiguous utterances where differences in phrasal prosody were triggered by the syntaxprosody interface and part of the common, default prosody of the sentences (i.e., in compound word versus list reading structures, like ‘guarda-chuva e pato,’ umbrella and duck vs. ‘guarda, chuva e pato’, guard, rain and duck). An eye-tracking paradigm (along the lines of De Carvalho, Dautriche, & Christophe, 2016a) was used to monitor the use of phrasal prosody, namely the contrast between a Prosodic Word boundary (PW) in the compound word interpretation and an Intonational Phrase boundary (IP) in the list interpretation, during auditory sentence processing. An offline pointing task was also included. Results have shown a clear developmental trend in the use of phrasal prosody to guide sentence interpretation, from a general inability at age 4 to a still developing ability at age 5, when local prosodic cues were still not enough and the support of distal cues was necessary to achieve disambiguation, unlike for adults. While the previous experiments investigated the ability to use prosody to constrain lexical and syntactic analysis, thus looking into the combination of lexical, syntactic and prosodic knowledge at a young age, in a final set of experiments, we asked whether phrasal prosody is exploited to chunk the speech signal into words by infants, in the absence of prior lexical knowledge. Using a modified version of the visual habituation paradigm (Altvater-Mackensen & Mani, 2013), we tested 12-month-olds use of phrasal prosody in early word segmentation beyond the utterance edge factor, by examining the effects of two prosodic boundaries in utterance internal position, namely the IP boundary (in the absence of pause) and the PW boundary. Our findings showed that early segmentation abilities are constrained by phrasal prosody, since they crucially depended on the location of the target word in the prosodic structure of the utterance. Implications of the findings in this thesis were discussed in the context of prosodic differences across languages, taking advantage of the atypical combination of prosodic properties that characterizes EP.No âmbito da aquisição da linguagem, a segmentação de fala em unidades e estruturas linguísticas é uma questão central. Esta dissertação examina o papel desempenhado pelo fraseamento prosódico na segmentação de fala, na aquisição do Português Europeu (PE), no que diz respeito ao processamento de frases globalmente ambíguas por parte de crianças aos 4 e 5 anos de idade e à segmentação precoce de palavras aos 12 meses. Estudos anteriores mostraram que o fraseamento prosódico é usado pelos adultos na resolução de ambiguidade, por exemplo, para desambiguar frases sintaticamente ambíguas envolvendo uma interpretação de low ou high attachment de um dado sintagma (e.g.,’Hide the rabbit with a cloth’ Esconde o coelho com um pano). Num estudo exploratório, e dados os resultados pouco claros de trabalhos anteriores para o Português Europeu, investigámos se o fraseamento prosódico poderia guiar a organização da fala em unidades específicas, bem como a interpretação das frases globalmente ambíguas, por parte de participantes adultos. Numa experiência de eye-tracking, que incluía também uma tarefa de apontar, observámos que os participantes adultos do PE não conseguiram usar o fraseamento prosódico para desambiguar as estruturas testadas. Quer os resultados do movimento dos olhos quer os da tarefa de apontar evidenciaram a preferência pelo high attachment na língua, independentemente do fraseamento prosódico envolvido. Estes resultados implicaram compreender melhor a interpretação adulta destes enunciados antes de se conduzir um estudo com crianças. Com base nas observações feitas neste estudo exploratório, conduzimos duas experiências novas por forma a examinar a capacidade de uso da prosódia, por parte das crianças (e adultos), num outro conjunto de enunciados globalmente ambíguos, em que as diferenças de fraseamento prosódico foram desencadeadas pela interface sintaxe-prosódia e por parte da prosódia default das frases (i.e., em compostos versus estruturas em formato de lista, como ‘guarda-chuva e pato,’ vs. ‘guarda, chuva e pato’). Um paradigma de eye-tracking (na linha de De Carvalho, Dautriche, & Christophe, 2016a) foi usado para monitorizar o uso do fraseamento prosódico, nomeadamente o contraste entre uma fronteira de Palavra Prosódica (PW) na interpretação de composto e uma fronteira de Sintagma Entoacional (IP) na interpretação de lista, durante o processamento auditivo da frase. Também foi incluída uma tarefa off-line de apontar. Os resultados mostraram um claro desenvolvimento no uso do fraseamento prosódico na interpretação das frases; de uma incapacidade geral de interpretação das frases aos 4 anos a uma clara evolução nas competências aos 5 anos, altura em que as pistas prosódicas locais ainda são insuficientes e o apoio do contexto prosódico da frase é necessário para alcançar a desambiguação, diferentemente do adulto. Enquanto as experiências anteriores investigaram a capacidade de usar a prosódia para restringir a análise lexical e sintática, olhando para a combinação de conhecimento lexical, sintático e prosódico numa idade precoce, num conjunto final de experiências, questionámos se o fraseamento prosódico é explorado, por parte das crianças, para organizar o sinal de fala em palavras, na ausência de conhecimento lexical prévio. Recorrendo a uma versão modificada do paradigma visual habituation (Altvater-Mackensen & Mani, 2013), testámos o uso do fraseamento prosódico para a segmentação precoce de palavras além do fator limite do enunciado, por parte de crianças com 12 meses de idade. Examinámos o efeito de duas fronteiras prosódicas em posição interna de enunciado, nomeadamente a fronteira de IP (na ausência de pausa) e a fronteira de PW. Os nossos resultados mostraram que a capacidade de segmentação precoce é afetada pelo fraseamento prosódico, na medida em que depende da localização da palavra-alvo na estrutura prosódica do enunciado. Partindo da combinação atípica das propriedades prosódicas que caracterizam o PE, as implicações do conjunto de estudos desenvolvidos no âmbito desta dissertação foram discutidas no contexto das diferenças prosódicas entre línguas

    Robust handling of out-of-vocabulary words in deep language processing

    Get PDF
    Tese de doutoramento, Informática (Ciências da Computação), Universidade de Lisboa, Faculdade de Ciências, 2014Deep grammars handle with precision complex grammatical phenomena and are able to provide a semantic representation of their input sentences in some logic form amenable to computational processing, making such grammars desirable for advanced Natural Language Processing tasks. The robustness of these grammars still has room to be improved. If any of the words in a sentence is not present in the lexicon of the grammar, i.e. if it is an out-of-vocabulary (OOV) word, a full parse of that sentence may not be produced. Given that the occurrence of such words is inevitable, e.g. due to the property of lexical novelty that is intrinsic to natural languages, deep grammars need some mechanism to handle OOV words if they are to be used in applications to analyze unrestricted text. The aim of this work is thus to investigate ways of improving the handling of OOV words in deep grammars. The lexicon of a deep grammar is highly thorough, with words being assigned extremely detailed linguistic information. Accurately assigning similarly detailed information to OOV words calls for the development of novel approaches, since current techniques mostly rely on shallow features and on a limited window of context, while there are many cases where the relevant information is to be found in wider linguistic structure and in long-distance relations. The solution proposed here consists of a classifier, SVM-TK, that is placed between the input to the grammar and the grammar itself. This classifier can take a variety of features and assign to words deep lexical types which can then be used by the grammar when faced with OOV words. The classifier is based on support-vector machines which, through the use of kernels, allows the seamless use of features encoding linguistic structure in the classifier. This dissertation focuses on the HPSG framework, but the method can be used in any framework where the lexical information can be encoded as a word tag. As a case study, we take LX-Gram, a computational grammar for Portuguese, to improve its robustness with respect to OOV verbs. Given that the subcategorization frame of a word is a substantial part of what is encoded in an HPSG deep lexical type, the classifier takes graph encoding grammatical dependencies as features. At runtime, these dependencies are produced by a probabilistic dependency parser. The SVM-TK classifier is compared against the state-of-the-art approaches for OOV handling, which consist of using a standard POS-tagger to assign lexical types, in essence doing POS-tagging with a highly granular tagset. Results show that SVM-TK is able to improve on the state-of-the-art, with the usual data-sparseness bottleneck issues imposing this to happen when the amount of training data is large enough.As gramáticas de processamento profundo lidam de forma precisa com fenómenos linguisticos complexos e são capazes de providenciar uma representação semântica das frases que lhes são dadas, o que torna tais gramáticas desejáveis para tarefas avançadas em Processamento de Linguagem Natural. A robustez destas gramáticas tem ainda espaço para ser melhorada. Se alguma das palavras numa frase não se encontra presente no léxico da gramática (em inglês, uma palavra out-of-vocabulary, ou OOV), pode não ser possível produzir uma análise completa dessa frase. Dado que a ocorrência de tais palavras é algo inevitável, e.g. devido à novidade lexical que é intrínseca às línguas naturais, as gramáticas profundas requerem algum mecanismo que lhes permita lidar com palavras OOV de forma a que possam ser usadas para análise de texto em aplicações. O objectivo deste trabalho é então investigar formas de melhor lidar com palavras OOV numa gramática de processamento profundo. O léxico de uma gramática profunda é altamente granular, sendo cada palavra associada com informação linguística extremamente detalhada. Atribuir corretamente a palavras OOV informação linguística com o nível de detalhe adequado requer que se desenvolvam técnicas inovadoras, dado que as abordagens atuais baseiam-se, na sua maioria, em características superficiais (shallow features) e em janelas de contexto limitadas, apesar de haver muitos casos onde a informação relevante se encontra na estrutura linguística e em relações de longa distância. A solução proposta neste trabalho consiste num classificador, SVM-TK, que é colocado entre o input da gramática e a gramática propriamente dita. Este classificador aceita uma variedade de features e atribui às palavras tipos lexicais profundos que podem então ser usado pela gramática sempre que esta se depare com palavras OOV. O classificador baseia-se em máquinas de vetores de suporte (support-vector machines). Esta técnica, quando combinada com o uso de kernels, permite que o classificador use, de forma transparente, features que codificam estrutura linguística. Esta dissertação foca-se no enquadramento teórico HPSG, embora o método proposto possa ser usado em qualquer enquadramento onde a informação lexical possa ser codificada sob a forma de uma etiqueta atribuída a uma palavra. Como caso de estudo, usamos a LX-Gram, uma gramatica computacional para a língua portuguesa, e melhoramos a sua robustez a verbos OOV. Dado que a grelha de subcategorização de uma palavra é uma parte substancial daquilo que se encontra codificado num tipo lexical profundo em HPSG, o classificador usa features baseados em dependências gramaticais. No momento de execução, estas dependências são produzidas por um analisador de dependências probabilístico. O classificador SVM-TK é comparado com o estado-da-arte para a tarefa de resolução de palavras OOV, que consiste em usar um anotador morfossintático (POS-tagger) para atribuir tipos lexicais, fazendo, no fundo, anotação com um conjunto de etiquetas altamente detalhado. Os resultados mostram que o SVM-TK melhora o estado-da-arte, com os já habituais problemas de esparssez de dados fazendo com que este efeito seja notado quando a quantidade de dados de treino é suficientemente grande.Fundação para a Ciência e a Tecnologia (FCT, SFRH/BD/41465/2007
    corecore