416 research outputs found

    Automatic text filtering using limited supervision learning for epidemic intelligence

    Get PDF
    [no abstract

    Information retrieval and text mining technologies for chemistry

    Get PDF
    Efficient access to chemical information contained in scientific literature, patents, technical reports, or the web is a pressing need shared by researchers and patent attorneys from different chemical disciplines. Retrieval of important chemical information in most cases starts with finding relevant documents for a particular chemical compound or family. Targeted retrieval of chemical documents is closely connected to the automatic recognition of chemical entities in the text, which commonly involves the extraction of the entire list of chemicals mentioned in a document, including any associated information. In this Review, we provide a comprehensive and in-depth description of fundamental concepts, technical implementations, and current technologies for meeting these information demands. A strong focus is placed on community challenges addressing systems performance, more particularly CHEMDNER and CHEMDNER patents tasks of BioCreative IV and V, respectively. Considering the growing interest in the construction of automatically annotated chemical knowledge bases that integrate chemical information and biological data, cheminformatics approaches for mapping the extracted chemical names into chemical structures and their subsequent annotation together with text mining applications for linking chemistry with biological information are also presented. Finally, future trends and current challenges are highlighted as a roadmap proposal for research in this emerging field.A.V. and M.K. acknowledge funding from the European Community’s Horizon 2020 Program (project reference: 654021 - OpenMinted). M.K. additionally acknowledges the Encomienda MINETAD-CNIO as part of the Plan for the Advancement of Language Technology. O.R. and J.O. thank the Foundation for Applied Medical Research (FIMA), University of Navarra (Pamplona, Spain). This work was partially funded by Consellería de Cultura, Educación e Ordenación Universitaria (Xunta de Galicia), and FEDER (European Union), and the Portuguese Foundation for Science and Technology (FCT) under the scope of the strategic funding of UID/BIO/04469/2013 unit and COMPETE 2020 (POCI-01-0145-FEDER-006684). We thank Iñigo Garciá -Yoldi for useful feedback and discussions during the preparation of the manuscript.info:eu-repo/semantics/publishedVersio

    Semantic annotation of electronic health records in a multilingual environment

    Get PDF
    Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática), Universidade de Lisboa, Faculdade de Ciências, 2017Os relatórios de Radiologia descrevem os resultados dos procedimentos de radiografia e têm o potencial de ser uma fonte de informação útil que pode trazer benefícios para os sistemas de saúde ao redor do mundo. No entanto, estes relatórios são geralmente escritos em texto livre e, portanto, é difícil extrair automaticamente informação a partir deles. Contudo, o fato de que a maioria dos relatórios estão agora digitalmente disponíveis torna-os passíveis de utilização de ferramentas de Prospeção de Texto (Text Mining). Outra vantagem dos relatórios de Radiologia, que os torna mais suscetíveis à utilização destas ferramentas, é que mesmo se escritos em texto livre, eles são geralmente bem estruturados. O problema é que estas ferramentas são principalmente desenvolvidas para Inglês e os relatórios são geralmente escritos na língua nativa do radiologista, que não é necessariamente o Inglês. Isso cria um obstáculo para a partilha de informação de Radiologia entre diferentes comunidades, partilha esta importante para compreender e tratar eficazmente problemas de saúde. Existem basicamente duas soluções possíveis para este problema. Uma solução é traduzir o próprio léxico que é utilizado pela ferramenta de Prospeção de Texto que se pretende utilizar. A outra é traduzir os próprios relatórios. Traduzir o léxico tem a vantagem de não necessitar de tradução contínua, ou seja, depois de traduzir um léxico para, por exemplo, Espanhol, podemos usá-lo para processar tantos relatórios Espanhóis não traduzidas conforme necessário. No entanto, quando uma nova versão do léxico é lançada as mudanças também precisam de ser traduzidas, caso contrário, o léxico traduzido ficaria desatualizado. Dada a crescente evolução de serviços de tradução hoje disponíveis, neste trabalho é avaliada a opção alternativa de traduzir os relatórios e verificar a sua viabilidade. Esta abordagem tem a vantagem de que os relatórios traduzidos seriam acessíveis a qualquer médico que entenda Inglês e as ferramentas estado da arte de Prospeção de Texto focadas em texto em Inglês podem ser aplicadas sem qualquer necessidade de adaptação. Se a tradução for feita por profissionais treinados em tradução de textos médicos, provavelmente pode-se assumir que informação não se perde no processo de tradução. Chamamos a este tipo de tradução Tradução Humana (Human Translation). Mas a utilização de tradutores especializados é cara e não escalável. Outra opção é usar Tradução Automática (Machine Translation). Não obstante a menor qualidade da tradução, é mais barata e mais viável em grande escala. Finalmente, uma opção que tenta obter o melhor dos dois mundos é usar Tradução Automática seguida de Pós-Edição (Post-Edition) por humanos. Nesta abordagem, o texto é automaticamente traduzido e, em seguida, a tradução é corrigida por um humano. Mais barata do que a opção de Tradução Humana e com melhor qualidade do que a de Tradução Automática. A escolha de abordagem de tradução é importante porque vai afetar a qualidade dos resultados das ferramentas de Prospeção de Texto. Atualmente não há nenhum estudo disponível publicamente que tenha fornecido evidência quantitativa que auxilie a fazer esta escolha. Isto pode ser explicado pela falta de um corpus paralelo que poderia ser usado para estudar este problema. Este trabalho explora a solução de traduzir os relatórios para Inglês antes de aplicar as ferramentas de Prospeção de Texto, analisando a questão de qual a abordagem de tradução que deve ser usada. Com este fim, criei MRRAD (Multilingual Radiology Research Articles Dataset), um corpus paralelo de 51 artigos portugueses de investiga ção relacionados com Radiologia, e uma série de traduções alternativas (humanas, automáticas e semi-automáticas) para Inglês. As versões originais dos artigos, em Português, e as traduções humanas foram extraídas automaticamente da biblioteca online SciELO. As traduções automáticas foram obtidas utilizando os serviços da Yandex e da Google e traduções semi-automáticas através dos serviços da Unbabel. Este é um corpus original que pode ser usado no avanço da investigação sobre este tema. Usando o MRRAD estudei que tipo de abordagem de tradução autom ática ou semi-automática é mais eficaz na tarefa de Reconhecimento de Entidades (Named-Entity Recognition ) relacionados com Radiologia mencionadas na versão em Inglês dos artigos. Estas entidades correspondem aos termos presentes no RadLex, que é uma ontologia que se foca em termos relacionados com Radiologia. A tarefa de Reconhecimento de Entidades é relevante uma vez que os seus resultados podem ser usadas em sistemas de Recuperação de Imagens (Image Retrieval ) e de Recuperação de Informação (Information Retrieval) e podem ser úteis para melhorar Sistemas de Respostas a Perguntas (Question Answering). Para realizar o Reconhecimento de termos do RadLex utilizei a API do Open Biomedical Annotator e duas diferentes configurações do software NOBLE Coder. Assim, ao todo utilizei três diferentes abordagens para identificar termos RadLex nos textos. A diferença entre as abordagens está em quão flexíveis ou estritas estas são em identificar os termos. Considerando os termos identificados nas traduções humanas como o padrão ouro (gold-standard ), calculei o quão semelhante a este padrão foram os termos identificados usando outras abordagens de tradução. Descobri que uma abordagem completamente automática de tradução utilizando o Google leva a micro F-Scores (entre 0,861 e 0,868, dependendo da abordagem de reconhecimento) semelhantes aos obtidos através de uma abordagem mais cara, tradução semi-automática usando Unbabel (entre 0,862 e 0,870). A abordagem de tradução utilizando os serviços da Yandex obteve micro F-Scores mais baixos (entre 0,829 e 0,831). Os resultados foram semelhantes mesmo no caso onde se consideraram apenas termos de RadLex pertences às sub-árvores correspondentes a entidades anatómicas e achados clínicos. Para entender melhor os resultados, também realizei uma análise qualitativa do tipo de erros encontrados nas traduções automáticas e semiautom áticas. A análise foi feita sobre os Falsos Positivos (FPs) e Falsos Negativos (FNs) cometidos pelas traduções utilizando Yandex, Google e Unbabel em 9 documentos aleatórios e cada erro foi classificado por tipo. A maioria dos FPs e FNs são explicados não por uma tradução errada mas por outras causas, por exemplo, uma tradução alternativa que leva a uma diferença nos termos identificados. Poderia ser esperado que as traduções Unbabel tivessem muitos menos erros, visto que têm o envolvimento de humanos, do que as da Google, mas isso nem sempre acontece. Há situações em que erros são até adicionados mesmo durante a etapa de Pós-Edição. Uma revisão dos erros faz-me propor que isso poderá ser devido à falta de conhecimento médico dos editores (utilizadores responsáveis por fazer a Pós-Edição) atuais da Unbabel. Por exemplo, um stroke (acidente vascular cerebral) é algo que ocorre no cérebro, mas num caso foi usado como algo que acontece no coração - alguém com algum conhecimento sobre a medicina não faria este erro. Mas a verdade é que a Unbabel atualmente não se foca em conteúdo médico. Prevejo que se eles o fizessem e investissem em crescer uma comunidade de utilizadores especialistas com melhor conhecimento da linguagem médica, isso levaria a melhores resultados. Dito isto, os resultados deste trabalho corroboram a conclusão de que se engenheiros de software tiverem recursos financeiros limitados para pagar por Tradução Humana, ficarão melhor servidos se usarem um serviço de tradução automática como a Google em vez de um serviço que implementa Pós-Edição, como a Unbabel. É claro que talvez haja melhores serviços de Tradução Automática do que a Google ou melhores serviços de Tradução Automática + Pós-Edição do que a Unbabel oferece atualmente para o campo médico, e isso é algo que poderia ser explorado em trabalhos futuros. O corpus MRRAD e as anotações utilizadas neste trabalho podem ser encontradas em https://github.com/lasigeBioTM/MRRAD.Radiology reports describe the results of radiography procedures and have the potential of being an useful source of information which can bring benefits to health care systems around the world. One way to automatically extract information from the reports is by using Text Mining tools. The problem is that these tools are mostly developed for English and reports are usually written in the native language of the radiologist, which is not necessarily English. This creates an obstacle to the sharing of Radiology information between different communities. This work explores the solution of translating the reports to English before applying the Text Mining tools, probing the question of what translation approach should be used. Having this goal, I created MRRAD (Multilingual Radiology Research Articles Dataset), a parallel corpus of Portuguese research articles related to Radiology and a number of alternative translations (human, automatic and semiautomatic) to English. This is a novel corpus which can be used to move forward the research on this topic. Using MRRAD, I studied which kind of automatic or semi-automatic translation approach is more effective on the Named-entity recognition task of finding RadLex terms in the English version of the articles. Considering the terms identified in human translations as the gold standard, I calculated how similar to this standard were the terms identified using other translation approaches (Yandex, Google and Unbabel). I found that a completely automatic translation approach using Google leads to micro F-Scores (between 0.861 and 0.868, depending on the identification approach) similar to the ones obtained through a more expensive semi-automatic translation approach using Unbabel (between 0.862 and 0.870). To better understand the results I also performed a qualitative analysis of the type of errors found in the automatic and semi-automatic translations. The MRRAD corpus and annotations used in this work can be found at https://github.com/lasigeBioTM/MRRAD

    AI Knowledge Transfer from the University to Society

    Get PDF
    AI Knowledge Transfer from the University to Society: Applications in High-Impact Sectors brings together examples from the "Innovative Ecosystem with Artificial Intelligence for Andalusia 2025" project at the University of Seville, a series of sub-projects composed of research groups and different institutions or companies that explore the use of Artificial Intelligence in a variety of high-impact sectors to lead innovation and assist in decision-making. Key Features Includes chapters on health and social welfare, transportation, digital economy, energy efficiency and sustainability, agro-industry, and tourism Great diversity of authors, expert in varied sectors, belonging to powerful research groups from the University of Seville with proven experience in the transfer of knowledge to the productive sector and agents attached to the Andalucía TECH Campu

    Development of a text mining approach to disease network discovery

    Get PDF
    Scientific literature is one of the major sources of knowledge for systems biology, in the form of papers, patents and other types of written reports. Text mining methods aim at automatically extracting relevant information from the literature. The hypothesis of this thesis was that biological systems could be elucidated by the development of text mining solutions that can automatically extract relevant information from documents. The first objective consisted in developing software components to recognize biomedical entities in text, which is the first step to generate a network about a biological system. To this end, a machine learning solution was developed, which can be trained for specific biological entities using an annotated dataset, obtaining high-quality results. Additionally, a rule-based solution was developed, which can be easily adapted to various types of entities. The second objective consisted in developing an automatic approach to link the recognized entities to a reference knowledge base. A solution based on the PageRank algorithm was developed in order to match the entities to the concepts that most contribute to the overall coherence. The third objective consisted in automatically extracting relations between entities, to generate knowledge graphs about biological systems. Due to the lack of annotated datasets available for this task, distant supervision was employed to train a relation classifier on a corpus of documents and a knowledge base. The applicability of this approach was demonstrated in two case studies: microRNAgene relations for cystic fibrosis, obtaining a network of 27 relations using the abstracts of 51 recently published papers; and cell-cytokine relations for tolerogenic cell therapies, obtaining a network of 647 relations from 3264 abstracts. Through a manual evaluation, the information contained in these networks was determined to be relevant. Additionally, a solution combining deep learning techniques with ontology information was developed, to take advantage of the domain knowledge provided by ontologies. This thesis contributed with several solutions that demonstrate the usefulness of text mining methods to systems biology by extracting domain-specific information from the literature. These solutions make it easier to integrate various areas of research, leading to a better understanding of biological systems

    White Paper 11: Artificial intelligence, robotics & data science

    Get PDF
    198 p. : 17 cmSIC white paper on Artificial Intelligence, Robotics and Data Science sketches a preliminary roadmap for addressing current R&D challenges associated with automated and autonomous machines. More than 50 research challenges investigated all over Spain by more than 150 experts within CSIC are presented in eight chapters. Chapter One introduces key concepts and tackles the issue of the integration of knowledge (representation), reasoning and learning in the design of artificial entities. Chapter Two analyses challenges associated with the development of theories –and supporting technologies– for modelling the behaviour of autonomous agents. Specifically, it pays attention to the interplay between elements at micro level (individual autonomous agent interactions) with the macro world (the properties we seek in large and complex societies). While Chapter Three discusses the variety of data science applications currently used in all fields of science, paying particular attention to Machine Learning (ML) techniques, Chapter Four presents current development in various areas of robotics. Chapter Five explores the challenges associated with computational cognitive models. Chapter Six pays attention to the ethical, legal, economic and social challenges coming alongside the development of smart systems. Chapter Seven engages with the problem of the environmental sustainability of deploying intelligent systems at large scale. Finally, Chapter Eight deals with the complexity of ensuring the security, safety, resilience and privacy-protection of smart systems against cyber threats.18 EXECUTIVE SUMMARY ARTIFICIAL INTELLIGENCE, ROBOTICS AND DATA SCIENCE Topic Coordinators Sara Degli Esposti ( IPP-CCHS, CSIC ) and Carles Sierra ( IIIA, CSIC ) 18 CHALLENGE 1 INTEGRATING KNOWLEDGE, REASONING AND LEARNING Challenge Coordinators Felip Manyà ( IIIA, CSIC ) and Adrià Colomé ( IRI, CSIC – UPC ) 38 CHALLENGE 2 MULTIAGENT SYSTEMS Challenge Coordinators N. Osman ( IIIA, CSIC ) and D. López ( IFS, CSIC ) 54 CHALLENGE 3 MACHINE LEARNING AND DATA SCIENCE Challenge Coordinators J. J. Ramasco Sukia ( IFISC ) and L. Lloret Iglesias ( IFCA, CSIC ) 80 CHALLENGE 4 INTELLIGENT ROBOTICS Topic Coordinators G. Alenyà ( IRI, CSIC – UPC ) and J. Villagra ( CAR, CSIC ) 100 CHALLENGE 5 COMPUTATIONAL COGNITIVE MODELS Challenge Coordinators M. D. del Castillo ( CAR, CSIC) and M. Schorlemmer ( IIIA, CSIC ) 120 CHALLENGE 6 ETHICAL, LEGAL, ECONOMIC, AND SOCIAL IMPLICATIONS Challenge Coordinators P. Noriega ( IIIA, CSIC ) and T. Ausín ( IFS, CSIC ) 142 CHALLENGE 7 LOW-POWER SUSTAINABLE HARDWARE FOR AI Challenge Coordinators T. Serrano ( IMSE-CNM, CSIC – US ) and A. Oyanguren ( IFIC, CSIC - UV ) 160 CHALLENGE 8 SMART CYBERSECURITY Challenge Coordinators D. Arroyo Guardeño ( ITEFI, CSIC ) and P. Brox Jiménez ( IMSE-CNM, CSIC – US )Peer reviewe
    corecore