5,211 research outputs found

    Embedding Web-based Statistical Translation Models in Cross-Language Information Retrieval

    Get PDF
    Although more and more language pairs are covered by machine translation services, there are still many pairs that lack translation resources. Cross-language information retrieval (CLIR) is an application which needs translation functionality of a relatively low level of sophistication since current models for information retrieval (IR) are still based on a bag-of-words. The Web provides a vast resource for the automatic construction of parallel corpora which can be used to train statistical translation models automatically. The resulting translation models can be embedded in several ways in a retrieval model. In this paper, we will investigate the problem of automatically mining parallel texts from the Web and different ways of integrating the translation models within the retrieval process. Our experiments on standard test collections for CLIR show that the Web-based translation models can surpass commercial MT systems in CLIR tasks. These results open the perspective of constructing a fully automatic query translation device for CLIR at a very low cost.Comment: 37 page

    Identifying human phenotype terms in text using a machine learning approach

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017Todos os dias, uma grande quantidade de informação biomédica está a ser criada sob a forma de artigos científicos, livros e imagens. Como a linguagem humana tem uma natureza não-estruturada (texto com baixo nível de organização), torna-se necessário a criação de métodos de extração de informação automáticos para que seja possível converter esta informação de modo a ser legível por uma máquina e para que seja possível automatizar este processo. Os sistemas de extração de informação têm melhorado ao longo dos anos, tornando-se cada vez mais eficazes. Esta informação extraída pode depois ser inserida em bases de dados para que seja facilmente acessível, pesquisável e para que seja possível criar ligações entre diferentes tipos de informação. O Processamento de Linguagem Natural (PLN) é uma área da informática que lida com linguagem humana. O seu objetivo é extrair significado de texto não-estruturado, de forma automática, utilizando um computador. Utiliza um conjunto de técnicas como tokenization, stemming, lemmatization e part-of-speech tagging para desconstruir o texto e torna-lo legível para máquinas. O PLN tem várias aplicações, entre as quais podemos encontrar: coreference resolution, tradução automática, Reconhecimento de Entidades Mencionadas (REM) e part-of-speech tagging. Os métodos de aprendizagem automática têm um papel muito importante na extração de informação, tendo sido desenvolvidos e melhorados ao longo dos anos, tornando-se cada vez mais poderosos. Estes métodos podem ser divididos em dois tipos: aprendizagem não-supervisionada e aprendizagem supervisionada. Os métodos de aprendizagem não-supervisionada como o Clustering, não necessitam de um conjunto de treino anotado, sendo isso vantajoso pois pode ser difícil de encontrar. Estes métodos podem ser usados para encontrar padrões nos dados, o que pode ser útil quando as características dos dados são desconhecidas. Por sua vez, os métodos de aprendizagem supervisionada utilizam um conjunto de treino anotado, que contém exemplos para os dados de input e de output, com o qual é possível criar um modelo capaz de classificar um conjunto de dados não anotado. Alguns dos métodos de aprendizagem supervisionada mais comuns são os Conditional Random Fields (CRFs), Support Vectors Machines (SVMs) e Decision Trees. Os CRFs são utilizados nesta tese e são modelos probabilísticos geralmente usados em sistemas de REM. Estes modelos apresentam vantagens em relação a outros modelos, permitindo relaxar as hipóteses de independência que são postas aos Hidden Markov Models (HMM) e evitar os problemas de bias (preconceito) existentes nos SVMs. O REM é um método que consiste na identificação de entidades em texto não-estruturado. Os sistemas REM podem ser divididos em três vertentes: métodos de aprendizagem automática, métodos baseados em dicionários e métodos baseados em regras escritas. Hoje em dia, a maioria dos sistemas de REM utilizam métodos de aprendizagem automática. As vertentes que utilizam apenas métodos de aprendizagem automática são flexíveis, mas precisam de grandes quantidades de dado, tendo a possibilidade de não produzir resultados precisos. Os métodos baseados em dicionários eliminam a necessidade de grandes quantidades de dados e conseguem obter bons resultados. No entanto, estes métodos são limitativos pois não conseguem identificar entidades que não estão dentro do dicionário. Finalmente, métodos que usam regras escritas podem produzir resultados de alta qualidade. Não tendo tantas limitações como os métodos baseados em dicionários, têm a desvantagem de ser necessário uma grande quantidade de tempo e trabalho manual para obter bons resultados. O objetivo desta tese é o desenvolvimento de um sistema REM, o IHP (Identifying Human Phenotypes) para a identificação automática de entidades representadas na Human Phenotype Ontology (HPO). A HPO é uma ontologia com o objetivo de fornecer um vocabulário standardizado para defeitos fenotípicos que podem ser encontrados em doenças humanas. O IHP utiliza métodos de aprendizagem automática para o processo de identificação de entidades e uma combinação de métodos baseados em dicionários e métodos baseados em regras escritas para o processo de validação das entidades identificadas. O IHP utiliza duas ferramentas de benchmarking específicas para esta ontologia, apresentadas num trabalho anterior (Groza T, 2015): O Gold Standard Corpora (GSC), que consiste num conjunto de abstracts com as respetivas anotações de termos do HPO, e os Test Suites (TS), que consistem num conjunto de testes específicos divididos em categorias diferentes. Estas ferramentas têm o propósito de testar diferentes propriedades dos anotadores. Enquanto que o GSC testa os anotadores de uma forma geral, avaliando a capacidade de identificar entidades em texto livre, os TS são compostos por um conjunto de testes que avaliam as possíveis variações linguísticas que as entidades do HPO podem ter. Groza et al. também apresenta os resultados do anotador BioLark-CR, o qual é utilizado como baseline para os resultados do IHP. O IHP utiliza o IBEnt (Identification of Biological Entities) como o sistema de REM base, tendo sido modificado para aceitar entidades do HPO. Este sistema usa o Stanford CoreNLP em conjunto com CRFs, sob a forma de StanfordNER e CRFSuite, de modo a criar um modelo a partir de um conjunto de treino. Este modelo pode depois ser avaliado por um conjunto de teste. Para a criação de um modelo é necessário selecionar um conjunto de características (features) que se ajuste ao conjunto de dados utilizados. O StanfordNER e o CRFSuite apresentam conjuntos de features diferentes. Para o StanfordNER, uma lista de features existente foi utilizada, aplicando um algoritmo para selecionar as features que trazem maiores benefícios. Para o CRFSuite, foi criado um conjunto de features (linguísticas, morfológicas, ortográficas, léxicas, de contexto e outra) com base em trabalhos prévios na área do REM biomédico. Este conjunto de features foi testado e selecionado manualmente de acordo com o desempenho. Além da utilização das features, um conjunto de regras de pós-processamento foi desenvolvido para pesquisar padrões linguísticos, utilizando também listas de palavras e stop words, com o propósito de remover entidades que tenham sido mal identificadas, identificar entidades que não tenham sido identificadas e combinar entidades adjacentes. Os resultados para o IHP foram obtidos utilizando os classificadores StanfordNER e o CRFSuite. Para o StanfordNER, o IHP atinge um F-measure de 0.63498 no GSC e de 0.86916 nos TS. Para o CRFSuite, atinge um F-measure de 0.64009 no GSC e 0.89556 nos TS. Em relação ao anotador comparativo Bio-LarK CR, estes resultados mostram um aumento de desempenho no GSC, sugerindo que o IHP tem uma maior capacidade do que o BioLarK CR em lidar com situações reais. Apresenta, no entanto, um decréscimo nos TS, tendo uma menor capacidade em lidar com estruturas linguísticas complexas que possam ocorrer. No entanto, apesar de haver um decréscimo nos TS, as estruturas linguísticas avaliadas por estes testes ocorrem naturalmente em texto livre (como os abstracts do GSC), sugerindo que os resultados do GSC sejam mais significativos do que os resultados dos TS. Durante o desenvolvimento da tese, alguns problemas foram identificados no GSC: anotação de entidades superclasse/subclasse, número de vezes que uma entidade é anotada erros comuns. Devido a estas inconsistências encontradas, o IHP tem o potencial de ter um desempenho melhor no GSC. Para testar esta possibilidade, foi efetuado um teste que consiste em remover Falsos Positivos que se encontram tanto nas anotações do GSC como também na base de dados do HPO. Estes Falsos Positivos, estando presentes no GSC e no HPO, provavelmente deveriam ser considerados como bem anotados, mas, no entanto, o GSC não identifica como uma entidade. Estes testes mostram que o IHP tem o potencial de atingir um desempenho de 0.816, que corresponde a um aumento considerável de cerca de 0.18 em relação aos resultados obtidos. Com a análise destas inconsistências encontradas no GSC, uma nova versão, o GSC+, foi criada. GSC+ permite uma anotação dos documentos mais consistente, tentando anotar o máximo número de entidades nos documentos. Em relação ao GSC, ao GSC+ foram adicionadas 881 entidades e foram modificadas 4 entidades. O desempenho do IHP no GSC+ é consideravelmente mais alta do que no GSC, tendo atingindo um valor de F-measure de 0.863. Esta diferença no desempenho é devido ao facto do GSC+ tentar identificar o máximo número de entidades possível. Muitas entidades que eram consideradas como erradas, agora são consideradas corretas.Named-Entity Recognition (NER) is an important Natural Language Processing task that can be used in Information Extraction systems to automatically identify and extract entities in unstructured text. NER is commonly used to identify biological entities such as proteins, genes and chemical compounds found in scientific articles. The Human Phenotype Ontology (HPO) is an ontology that provides a standardized vocabulary for phenotypic abnormalities found in human diseases. This article presents the Identifying Human Phenotypes (IHP) system, tuned to recognize HPO entities in unstructured text. IHP uses IBEnt (Identification of Biological Entities) as the base NER system. It uses Stanford CoreNLP for text processing and applies Conditional Random Fields (CRFs) for the identification of entities. IHP uses of a rich feature set containing linguistic, orthographic, morphologic, lexical and context features created for the machine learning-based classifier. However, the main novelty of IHP is its validation step based on a set of carefully crafted hand-written rules, such as the negative connotation analysis, that combined with a dictionary are able to filter incorrectly identified entities, find missing entities and combine adjacent entities. The performance of IHP was evaluated using the recently published HPO Gold Standardized Corpora (GSC) and Test Suites (TS), where the system Bio-LarK CR obtained the best F-measure of 0.56 and 0.95 in the GSC and TS, respectively. Using StanfordNER, IHP achieved an F-measure of 0.646 for the GSC and 0.869 for the TS. Using CRFSuite, it achieved an F-measure of 0.648 for the GSC and 0.895 for the TS. Due to inconsistencies found in the GSC, an extended version of the GSC, the GSC+, was created, adding 881 entities and modifying 4 entities. IHP achieved an F-measure of 0.863 on GSC+. Both the GSC+ and the IHP system are publicly available at: https://github.com/lasigeBioTM/IHP

    Approaches to automated detection of cyberbullying:A Survey

    Get PDF
    Research into cyberbullying detection has increased in recent years, due in part to the proliferation of cyberbullying across social media and its detrimental effect on young people. A growing body of work is emerging on automated approaches to cyberbullying detection. These approaches utilise machine learning and natural language processing techniques to identify the characteristics of a cyberbullying exchange and automatically detect cyberbullying by matching textual data to the identified traits. In this paper, we present a systematic review of published research (as identified via Scopus, ACM and IEEE Xplore bibliographic databases) on cyberbullying detection approaches. On the basis of our extensive literature review, we categorise existing approaches into 4 main classes, namely; supervised learning, lexicon based, rule based and mixed-initiative approaches. Supervised learning-based approaches typically use classifiers such as SVM and Naïve Bayes to develop predictive models for cyberbullying detection. Lexicon based systems utilise word lists and use the presence of words within the lists to detect cyberbullying. Rules-based approaches match text to predefined rules to identify bullying and mixed-initiatives approaches combine human-based reasoning with one or more of the aforementioned approaches. We found lack of quality representative labelled datasets and non-holistic consideration of cyberbullying by researchers when developing detection systems are two key challenges facing cyberbullying detection research. This paper essentially maps out the state-of-the-art in cyberbullying detection research and serves as a resource for researchers to determine where to best direct their future research efforts in this field

    Machine Translation Vs. Multilingual Dictionaries Assessing Two Strategies for the Topic Modeling of Multilingual Text Collections

    Get PDF
    The goal of this paper is to evaluate two methods for the topic modeling of multilingual document collections: (1) machine translation (MT), and (2) the coding of semantic concepts using a multilingual dictionary (MD) prior to topic modeling. We empirically assess the consequences of these approaches based on both a quantitative comparison of models and a qualitative validation of each method’s potentials and weaknesses. Our case study uses two text collections (of tweets and news articles) in three languages (English, Hebrew, Arabic), covering the ongoing local conflicts between Israeli authorities, settlers, and Palestinian Bedouins in the West Bank. We find that both methods produce a large share of equivalent topics, especially in the context of fairly homogenous news discourse, yet show limited but systematic differences when applied to highly heterogenous social media discourse. While the MD model delivers a more nuanced picture of conflict-related topics, it misses several more peripheral topics, especially those unrelated to the dictionary’s focus, which are picked up by the MT model. Our study is a first step toward instrument validation, indicating that both methods yield valid, comparable results, while method-specific differences remain

    Word Frequencies in Linguistic Articles Published in SINTA Indexed Journals

    Get PDF
      Multiword sequences are a language pattern that occurs when a bunch of words emerge in a similar register. In research papers conducted by lecturers and students, different topic areas and indexes has created various characteristics of lexical bundles. The method of this research is qualitative, combining corpus design to identify the sequence of words within the text. The corpus data were generated from five different indexing journals, yet the topic is linguistics. Initially, the whole papers were converted to text format to deal with readability in the program used. The program used was Orange Apps version 3.27 by applying the textable, data table, and text mining menus. The sources of the data are emphasized as being academic research indexed in SINTA 5, published in 2020. The main theory of used in this research is that of Biber’s (2007) which discusses the main characteristics and number of criteria for defining word strings. This observation resulted in 207.896 characters and 33.636 words. There were 4,273 words based on the pre-processing analysis result, which included transformation, tokenization, and PoS-tagging. From a total of 4,273 words, virus, deixis, and slang were the most frequently occurring. Based on these results, it can be concluded that the majority of journal articles are about viruses and slang. They pertain to the prevalent topic of pandemics at the time the journals were published. When the process of writing a journal article is in progress, this information may aid the authors in identifying the journal’s keywords and most frequent words

    Word Frequencies in Linguistic Articles Published in SINTA Indexed Journals

    Get PDF
      Multiword sequences are a language pattern that occurs when a bunch of words emerge in a similar register. In research papers conducted by lecturers and students, different topic areas and indexes has created various characteristics of lexical bundles. The method of this research is qualitative, combining corpus design to identify the sequence of words within the text. The corpus data were generated from five different indexing journals, yet the topic is linguistics. Initially, the whole papers were converted to text format to deal with readability in the program used. The program used was Orange Apps version 3.27 by applying the textable, data table, and text mining menus. The sources of the data are emphasized as being academic research indexed in SINTA 5, published in 2020. The main theory of used in this research is that of Biber’s (2007) which discusses the main characteristics and number of criteria for defining word strings. This observation resulted in 207.896 characters and 33.636 words. There were 4,273 words based on the pre-processing analysis result, which included transformation, tokenization, and PoS-tagging. From a total of 4,273 words, virus, deixis, and slang were the most frequently occurring. Based on these results, it can be concluded that the majority of journal articles are about viruses and slang. They pertain to the prevalent topic of pandemics at the time the journals were published. When the process of writing a journal article is in progress, this information may aid the authors in identifying the journal’s keywords and most frequent words

    On the role of articulatory prosodies in German message decoding

    Get PDF
    A theoretical framework for speech reduction is outlined in which 'coarticulation' and 'articulatory control' operate on sequences of 'opening-closing gestures' in linguistic and communicative settings, leading to suprasegmental properties - 'articulatory prosodies' - in the acoustic output. In linking this gestalt perspective in speech production to the role of phonetic detail in speech understanding, this paper reports on perception experiments that test listeners' reactions to varying extension of an 'articulatory prosody of palatality' in message identification. The point of departure for the experimental design was the German utterance ich kann Ihnen das ja mal sagen 'I can mention this to you' from the Kiel Corpus of Spontaneous Speech, which contains the palatalized stretch [k̟(h)ε̈n(j)n(j)əs] for the sequence of function words /kan i.n(kə)n das/ kann Ihnen das. The utterance also makes sense without the personal pronoun Ihnen. Systematic experimental variation has shown that the extent of palatality has a highly significant influence on the decoding of Ihnen and that the effect of nasal consonant duration depends on the extension of palatality. These results are discussed in a plea to base future speech perception research on a paradigm that makes the traditional segment-prosody divide more permeable, and moves away from the generally practised phoneme orientation
    corecore