3,585 research outputs found

    Towards Generalist Biomedical AI

    Full text link
    Medicine is inherently multimodal, with rich data modalities spanning text, imaging, genomics, and more. Generalist biomedical artificial intelligence (AI) systems that flexibly encode, integrate, and interpret this data at scale can potentially enable impactful applications ranging from scientific discovery to care delivery. To enable the development of these models, we first curate MultiMedBench, a new multimodal biomedical benchmark. MultiMedBench encompasses 14 diverse tasks such as medical question answering, mammography and dermatology image interpretation, radiology report generation and summarization, and genomic variant calling. We then introduce Med-PaLM Multimodal (Med-PaLM M), our proof of concept for a generalist biomedical AI system. Med-PaLM M is a large multimodal generative model that flexibly encodes and interprets biomedical data including clinical language, imaging, and genomics with the same set of model weights. Med-PaLM M reaches performance competitive with or exceeding the state of the art on all MultiMedBench tasks, often surpassing specialist models by a wide margin. We also report examples of zero-shot generalization to novel medical concepts and tasks, positive transfer learning across tasks, and emergent zero-shot medical reasoning. To further probe the capabilities and limitations of Med-PaLM M, we conduct a radiologist evaluation of model-generated (and human) chest X-ray reports and observe encouraging performance across model scales. In a side-by-side ranking on 246 retrospective chest X-rays, clinicians express a pairwise preference for Med-PaLM M reports over those produced by radiologists in up to 40.50% of cases, suggesting potential clinical utility. While considerable work is needed to validate these models in real-world use cases, our results represent a milestone towards the development of generalist biomedical AI systems

    Knowledge Graphs 2021: {A} Data Odyssey

    Get PDF

    Biomedical semantic question and answering system

    Get PDF
    Tese de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2017Os sistemas de Question Answering são excelentes ferramentas para a obtenção de respostas simples e em vários formatos de uma maneira tamb´em simples, sendo de grande utilidade na área de Information Retrieval, para responder a perguntas da comunidade online, e também para fins investigativos ou de prospeção de informação. A área da saúde tem beneficiado muito com estes avanços, auxiliados com o progresso da tecnologia e de ferramentas delas provenientes, que podem ser usadas nesta área, resultando na constante informatização destas áreas. Estes sistemas têm um grande potencial, uma vez que eles acedem a grandes conjuntos de dados estruturados e não estruturados, como por exemplo, a Web ou a grandes repositórios de informação provenientes de lá, de forma a obter as suas respostas, e no caso da comunidade de perguntas e respostas, fóruns online de perguntas e respostas em threads por temática. Os dados não estruturados fornecem um maior desafio, apesar dos dados estruturados de certa maneira limitar o leque de opções transformativas sobre os mesmos. A mesma disponibilização de tais conjuntos de dados de forma pública em formato digital oferecem uma maior liberdade para o público, e mais especificamente os investigadores das áreas específicas envolvidas com estes dados, permitindo uma fácil partilha das mesmas entre os vários interessados. De um modo geral, tais sistemas não estão disponíveis para reutilização pública, porque estão limitados ao campo da investigação, para provar conceitos de algoritmos específicos, são de difícil reutilização por parte de um público mais alargado, ou são ainda de difícil manutenção, pois rapidamente podem ficar desatualizados, principalmente nas tecnologias usadas, que podem deixar de ter suporte. O objetivo desta tese é desenvolver um sistema que colmate algumas destas falhas, promovendo a modularidade entre os módulos, o equilíbrio entre a implementação e a facilidade de utilização, desempenho dos sub-módulos, com o mínimo de pré-requisitos possíveis, tendo como resultado final um sistema de QA base adapaptado para um domínio de conhecimento. Tal sistema será constituído por subsistemas provados individualmente. Nesta tese, são descritobos vários tipos de sistemas, como os de prospecção de informação e os baseados em conhecimento, com enfoque em dois sistemas específicos desta área, o YodaQA e o OAQA. São apresentadas também várias ferramentas úteis e que são recorridas em vários destes sistemas que recorrem a técnicas de Text Classification, que vão desde o processamento de linguagem natural, ao Tokenizatioin, ao Part-of-speech tagging, como a exploração de técnicas de aprendizagem automática (Machine Learning) recorrendo a algoritmos supervisionados e não supervisionados, a semelhança textual (Pattern Matching) e semelhança semântica (Semantic Similarity). De uma forma geral, a partir destas técnicas é possível através de trechos de texto fornecidos, obter informação adicional acerca desses mesmos trechos. São ainda abordadas várias ferramentas que utilizam as técnicas descritas, como algumas de anotação, outras de semelhança semântica e ainda outras num contexto de organização, ordenação e pesquisa de grandes quantidades de informação de forma escaláveis que são úteis e utilizadas neste tipo de aplicações. Alguns dos principais conjuntos de dados são também descritos e abordados. A framework desenvolvida resultou em dois sistemas com uma arquitetura modular em pipeline, composta por módulos distintos consoante a tarefa desenvolvida. Estes módulos tinham bem definido os seus parâmetros de entrada como o que devolviam. O primeiro sistema tinha como entrada um conjunto de threads de perguntas e respostas em comentário e devolvia cada conjunto de dez comentários a uma pergunta ordenada e com um valor que condizia com a utilidade desse comentário para com a resposta. Este sistema denominou-se por MoRS e foi a prova de conceito modular do sistema final a desenvolver. O segundo sistema tem como entrada variadas perguntas da área da biomédica restrita a quatro tipos de pergunta, devolvendo as respectivas respostas, acompanhadas de metadata utilizada na análise dessa pergunta. Foram feitas algumas variações deste sistema, por forma a poder aferir se as escolhas de desenvolvimento iam sendo correctas, utilizando sempre a mesma framework (MoQA) e culminando com o sistema denominado MoQABio. Os principais módulos que compõem estes sistemas incluem, por ordem de uso, um módulo para o reconhecimento de entidades (também biomédicas), utilizando uma das ferramentas já investigadas no capítulo do trabalho relacionado. Também um módulo denominado de Combiner, em que a cada documento recolhido a partir do resultado do módulo anterior, são atribuídos os resultados de várias métricas, que servirão para treinar, no módulo seguinte, a partir da aplicação de algoritmos de aprendizagem automática de forma a gerar um modelo de reconhecimento baseado nestes casos. Após o treino deste modelo, será possível utilizar um classificador de bons e maus artigos. Os modelos foram gerados na sua maioria a partir de Support Vector Machine, havendo também a opção de utilização de Multi-layer Perceptron. Desta feita, dos artigos aprovados são retirados metadata, por forma a construir todo o resto da resposta, que incluia os conceitos, referencia dos documentos, e principais frases desses documentos. No módulo do sistema final do Combiner, existem avaliações que vão desde o já referido Pattern Matching, com medidas como o número de entidades em comum entre a questão e o artigo, de Semantic Similarity usando métricas providenciadas pelos autores da biblioteca Sematch, incluindo semelhança entre conceitos e entidades do DBpedia e outras medidas de semelhança semântica padrão, como Resnik ou Wu-Palmer. Outras métricas incluem o comprimento do artigo, uma métrica de semelhança entre duas frases e o tempo em milisegundos desse artigo. Apesar de terem sido desenvolvidos dois sistemas, as variações desenvolvidas a partir do MoQA, é que têm como pré-requisitos conjuntos de dados provenientes de várias fontes, entre elas o ficheiro de treino e teste de perguntas, o repositório PubMed, que tem inúmeros artigos científicos na área da biomédica, dos quais se vai retirar toda a informação utilizada para as respostas. Além destas fontes locais, existe o OPENphacts, que é externa, que fornecerá informação sobre várias expressões da área biomédica detectadas no primeiro módulo. No fim dos sistemas cujo ancestral foi o MoQA estarem prontos, é possível os utilizadores interagirem com este sistema através de uma aplicação web, a partir da qual, ao inserirem o tipo de resposta que pretendem e a pergunta que querem ver respondida, essa pergunta é passada pelo sistema e devolvida à aplicação web a resposta, e respectiva metadata. Ao investigar a metadata, é possível aceder à informação original. O WS4A participou no BioASQ de 2016, desenvolvida pela equipa ULisboa, o MoRS participou do SemEval Task 3 de 2017 e foi desenvolvida pelo pr´oprio, e por fim oMoQA da mesma autoria do segundo e cujo desempenho foi avaliado consoante os mesmos dados e métricas do WS4A. Enquanto que no caso do BioASQ, era abordado o desempenho de um sistema de Question Answering na àrea da biomédica, no SemEval era abordado um sistema de ordenação de comentários para com uma determinada pergunta, sendo os sistemas submetidos avaliados oficialmente usando as medidas como precision, recall e F-measure. De forma a comparar o impacto das características e ferramentas usadas em cada um dos modelos de aprendizagem automática construídos, estes foram comparados entre si, assim como a melhoria percentual entre os sistemas desenvolvidos ao longo do tempo. Além das avaliações oficiais, houve também avaliações locais que permitiram explorar ainda mais a progressão dos sistemas ao longo do tempo, incluindo os três sistemas desenvolvidos a partir do MoQA. Este trabalho apresenta um sistema que apesar de usar técnicas state of the art com algumas adaptações, conseguiu atingir uma melhoria desempenho relevante face ao seu predecessor e resultados equiparados aos melhores do ano da competição cujos dados utilizou, possuindo assim um grande potencial para atingir melhores resultados. Alguns dos seus contributos já vêm desde Fevereiro de 2016, com o WS4A [86], que participou no BioASQ 2016, com o passo seguinte no MoRS [85], que por sua vez participou no SemEval 2017, findando pelo MoQA, com grandes melhorias e disponível ao público em https://github.com/lasigeBioTM/MoQA. Como trabalho futuro, propõem-se sugestões, começando por melhorar a robustez do sistema, exploração adicional da metadata para melhor direcionar a pesquisa de respostas, a adição e exploração de novas características do modelo a desenvolver e a constante renovação de ferramentas utilizadas Também a incorporação de novas métricas fornecidas pelo Sematch, o melhoramento da formulação de queries feitas ao sistema são medidas a ter em atenção, dado que é preciso pesar o desempenho e o tempo de resposta a uma pergunta.Question Answering systems have been of great use and interest in our times. They are great tools for acquiring simple answers in a simple way, being of great utility in the area of information retrieval, and also for community question answering. Such systems have great potential, since they access large sets of data, for example from the Web, to acquire their answers, and in the case of community question answering, forums. Such systems are not available for public reuse because they are only limited for researching purposes or even proof-of-concept systems of specific algorithms, with researchers repeating over and over again the same r very similar modules frequently, thus not providing a larger public with a tool which could serve their purposes. When such systems are made available, are of cumbersome installation or configuration, which includes reading the documentation and depending on the researchers’ programming ability. In this thesis, the two best available systems in these situations, YodaQA and OAQA are described. A description of the main modules is given, with some sub-problems and hypothetical solutions, also described. Many systems, algorithms (i.e. learning, ranking) were also described. This work presents a modular system, MoQA (which is available at https:// github.com/lasigeBioTM/MoQA), that solves some of these problems by creating a framework that comes with a baseline QA system for general purpose local inquiry, but which is a highly modular system, built with individually proven subsystems, and using known tools such as Sematch, It is a descendant of WS4A [86] and MoRS [85], which took part in BioASQ 2016 (with recognition) and SemEval 2017 repectively. Machine Learning algorithms and Stanford Named Entity Recognition. Its purpose is to have a performance as high as possible while keeping the prerequisites, edition, and the ability to change such modules to the users’ wishes and researching purposes while providing an easy platform through which the final user may use such framework. MoQA had three variants, which were compared with each other, with MoQABio, with the best results among them, by using different tools than the other systems, focusing on the biomedical domain knowledge

    Arctic passages: maternal transport, Iñupiat mothers and Northwest Alaska communities in transition

    Get PDF
    Thesis (Ph.D.) University of Alaska Fairbanks, 2013While the primary goal of the northwest Alaska Native village maternal transport program is safe deliveries for mothers from remote villages, little has been done to examine the impact of transport on the mothers and communities involved. I explore how present values (Western and Iñupiat cultural values) can influence the desire of indigenous women of differing eras and Northwest Alaska villages to participate in biomedical birth practices, largely as made available by a tribal health-sponsored patient transport system. The work that follows portrays the varying influences on these women and their communities as they determine the level of importance for mothers to get to the hospital to deliver. I have enlisted viewpoints of Alaska Native families and women of different generations from various lñupiat villages to help paint a picture of the situation. With this research, I ask, how do generations of mothers, transport situations, and villages compare in terms of experiences during the processes of these Iñupiat women becoming mothers? What gender, ethnicity, and power interplays exist in this dynamic helix of social and political elements (embodiment) during their periods of liminality? What are influences (biomedical and community) that contribute to a woman's transition to motherhood in this community? Moreover, how do women, families, and community members perceive the maternal transport policy today? I examine how the transport policy figures into stages of liminality, as these mothers and communities produce future generations. With theoretical frameworks provided by medical anthropology and maternal identity work, I track the differences concerning the maternal transport operation for lñupiat mothers of the area. I compare the influences of cultural value systems present in each of the communities by birth era and location. Using content analysis to determine common themes, I found connections among presence of Iñupiat values, community acceptance of maternal transport, and expressed desire for community autonomy in maternal health care.Preface -- Chapter 1. Maternal health care for Iñupiat mothers of the Northwest -- 1.1. Introduction -- 1.2. The Alaska Native Village Maternal Health Transport (ANVMT) policy -- 1.3. Arctic passages research questions -- 1.4. Risk assessment and postneonatal mortality statistics -- 1.4.1. Data used for risk assessment -- 1.4.2. 'They must simply be asked' -- 1.5. Liminality, communitas, and maternal identity work -- 1.5.1. Liminality -- 1.5.2. Related studies use of liminality as analysis tool -- 1.5.3. Communitas -- 1.5.4. Communitas and Turner's contribution to liminality -- 1.5.5. Maternal identity work -- 1.6. Iñupiat communities of Northwest Alaska -- 1.6.1. Population -- 1.6.2. Geography, climate, and transportation -- 1.6.3. NW Alaska socio-political maternal health care governing bodies -- 1.7. Overview of the thesis -- Chapter 2. Design, methods and analytical techniques -- 2.1. Selection of topic and study area -- 2.1.1. ANVMT policy analysis in exploratory phase -- 2.1.2. ANVMT policy analysis and early stage hypothesis development -- 2.2. Version one of study scope and parameters -- 2.2.1. Development of new study scope -- 2.2.2. Development of new study design -- 2.3. Arctic Passages study scope and parameters -- 2.4. Sampling and data collection techniques -- 2.4.1. Arctic Passages framework approach -- 2.4.2. Arctic Passages grounded theory -- 2.5. Methodological and analytical techniques -- 2.5.1. Familiarization -- 2.5.2. Identifying thematic framework -- 2.5.3. Indexing -- 2.5.4. Charting -- 2.5.5. Mapping and interpretation -- 2.6. Summary -- Chapter 3. Biomedicine, maternal health policy, and birth models -- 3.1. Introduction: US maternal health care policy and biomedicine -- 3.2. Use of Alaska Native maternal and infant health data to inform policy -- 3.3. Anthropology of birth: medical anthropology and cultural competency -- 3.3.1. Physician-patient cultural divide and cultural competency -- 3.3.2. Cultural competency efforts in Alaska Native health care -- 3.3.3. History and cross-cultural treatment of birth -- 3.3.4. Jordan's midwife construct -- 3.4. Emergence of birth models -- 3.5. Midwifery and biomedical birth models -- 3.5.1. The midwifery birth model -- 3.5.2. The biomedical birth model -- 3.5.3. Authoritative knowledge in birth constructs -- 3.5. Summary -- Chapter 4. Maternal identity, embodiment and Iñupiat cultural values -- 4.1. Introduction -- 4.2. Nursing theories and maternal identity -- 4.2.1. Maternal identity and ethnic identity -- 4.2.2. Maternal identity and group membership -- 4.2.3. Public health policy, nationalism, and tribalism and maternal identity -- 4.3. Embodiment and birthing practice -- 4.3.1. Embodiment and the body politic -- 4.3.2. Embodiment among maternal Third and Fourth World identities -- 4.4. Iñupiat Ilitqusiat: backdrop to everyday changing realities -- 4.4.1. Maternal and medical cultural influences -- 4.4.2. Iñupiat Ilitqusiat definition for Arctic Passages -- 4.4.3. Iñupiat Ilitqusiat expressions in Arctic Passages -- 4.5. Summary -- Chapter 5. Iñupiat Birthways in Northwest Alaska and ANVMT policy -- 5.1. Sampling results and scope -- 5.2. Secondary birth and transport figures -- 5.2.1. Arctic Passages statistical data sources -- 5.2.2. Maternal and infant health statistical records on Maniilaq region births -- 5.2.3. Maniilaq region flight services impact on ANVMT policy -- 5.2.4. Maniilaq region facility usage trends, historical and current data -- 5.3. Delivery and infant mortality figures -- 5.3.1. Maniilaq service area 'type of delivery' statistics -- 5.3.2. Maniilaq Service Area infant mortality statistics -- Chapter 6. Iñupiat mothers navigating the ANVMT system: today and yesterday -- 6.1. Arctic Passage mothers and the ANVMT policy -- 6.1.1. Themes -- 6.1.2. Buckland mothers' views of the ANVMT policy -- 6.1.3. Kotzebue mothers' views of the ANVMT policy -- 6.1.4. Point Hope mothers' views of the ANVMT policy -- 6.2. Arctic Passages community and family members and the ANVMT policy -- 6.2.1. Buckland -- 6.2.2. Kotzebue -- 6.2.3. Point Hope -- 6.3. Maternal transport: a new tradition in the Arctic Passages communities? -- 6.4. Maternal identity work, liminality, communitas and the ANVMT system -- 6.4.1. Self-identification and embodiment as Iñupiat mothers -- 6.4.2. Iñupiat mothers, liminality, and communitas -- 6.5. Different generations of Arctic Passages Iñupiat mothers as participants -- 6.6. Influences and the ANVMT system -- 6.6.1. Biomedical influences -- 6.6.2. Family and community influences -- Chapter 7. Conclusion -- 7.1. Conclusions -- 7.2. Arctic Passages limitations and questions for further research -- 7.2.1. Limitations -- 7.2.2. Questions for further research -- 7.3. Maniilaq ANVMT policy: availability versus accessibility -- 7.3.1. Trust and communication between worldviews in Maniilaq maternal care -- 7.3.2. Alignment of like-minded communities and health care philosophies -- References

    Paul Ricœur’s Philosophy of Education and its Relevance for our Scientific-Technological Civilization

    Get PDF
    Inspired by the report, Reimagining our Futures Together. A New Social Contract for Education, which warns that humanity and planet Earth are under threat, but acknowledges that education has the power to bring about profound change, this article makes the case for giving careful consideration both to Paul Ricœur’s reflections on humanity and human capacities, and to his comments on “true education” and the educational value of poetic thought. To get a sense of where scientific-technological civilization is headed, it draws on the work of Allen Buchanan and Dominique Janicaud. It then examines Ricœur’s account of the essential characteristics of education and his thoughts on the roles of families and teachers. It argues that Ricœur’s proposal for the cultivation of an “ethical consciousness” offers greater protection for humanity in an uncertain future than Janicaud and Buchanan’s proposals for “ethical vigilance” and rules-based protective measures

    Psychotherapy and the Embodiment of the Neuronal Identity: A Hermeneutic Study of Louis Cozolino\u27s (2010)\u3ci\u3e The Neuroscience of Psychotherapy: Healing the Social Brain \u3c/i\u3e

    Get PDF
    In recent years, there have been several ways in which researchers have attempted to integrate psychotherapy and neuroscience research. Neuroscience has been proposed as a method of addressing lingering questions about how best to integrate psychotherapy theories and explain their efficacy. For example, some psychotherapy outcome studies have included neuroimaging of participants in order to propose neurobiological bases of effective psychological interventions (e.g., Paquette et al., 2003). Other theorists have used cognitive neuroscience research to suggest neurobiological correlates of various psychotherapy theories and concepts (e.g., Schore, 2012). These efforts seem to embody broader historical trends, including the hope that neuroscience can resolve philosophical questions about the relationship between mind and body, as well as the popular appeal of contemporary brain research. In this hermeneutic dissertation I examined a popular neuropsychotherapy text in order to explore the historical fit between neuroscience and psychotherapy. The study identifies the possible understandings of the self (i.e., what it means to be human) that could arise from Western therapy discourses that are based on neuroscientific interpretations of psychotherapy theories. The methodology of this dissertation consisted of a critical textual analysis of Louis Cozolino\u27s (2010) The Neuroscience of Psychotherapy: Healing the Social Brain. The primary content, rhetorical strategies, and recurring themes in Cozolino\u27s book were outlined and interpreted from a hermeneutic perspective. This included a historical critique of Cozolino\u27s claims about the origins, purpose, and efficacy of psychotherapy, his assertions about the relationship between self and brain, and examples of his psychotherapy case vignettes. Rhetorical strategies in his writing included analogy, ambiguity, speculative language, and figures of speech such as metaphor and personification. A discussion of these findings addressed the implications of Cozolino\u27s efforts with regards to patient care, psychotherapy theory integration, and the possible effects that these efforts may have on the profession of psychology. The electronic version of this dissertation is at OhioLink ETD Center, www.ohiolink.edu/et

    Reviews

    Get PDF

    Pretrained Transformers for Text Ranking: BERT and Beyond

    Get PDF
    The goal of text ranking is to generate an ordered list of texts retrieved from a corpus in response to a query. Although the most common formulation of text ranking is search, instances of the task can also be found in many natural language processing applications. This survey provides an overview of text ranking with neural network architectures known as transformers, of which BERT is the best-known example. The combination of transformers and self-supervised pretraining has been responsible for a paradigm shift in natural language processing (NLP), information retrieval (IR), and beyond. In this survey, we provide a synthesis of existing work as a single point of entry for practitioners who wish to gain a better understanding of how to apply transformers to text ranking problems and researchers who wish to pursue work in this area. We cover a wide range of modern techniques, grouped into two high-level categories: transformer models that perform reranking in multi-stage architectures and dense retrieval techniques that perform ranking directly. There are two themes that pervade our survey: techniques for handling long documents, beyond typical sentence-by-sentence processing in NLP, and techniques for addressing the tradeoff between effectiveness (i.e., result quality) and efficiency (e.g., query latency, model and index size). Although transformer architectures and pretraining techniques are recent innovations, many aspects of how they are applied to text ranking are relatively well understood and represent mature techniques. However, there remain many open research questions, and thus in addition to laying out the foundations of pretrained transformers for text ranking, this survey also attempts to prognosticate where the field is heading

    TrialMatch: A Transformer Architecture to Match Patients to Clinical Trials

    Get PDF
    Around 80% of clinical trials fail to meet the patient recruitment requirements, which not only hinders the market growth but also delays patients’ access to new and effec- tive treatments. A possible approach is to use Electronic Health Records (EHRs) to help match patients to clinical trials. Past attempts at achieving this exact goal took place, but due to a lack of data, they were unsuccessful. In 2021 Text REtrieval Conference (TREC) introduced the Clinical Trials Track, where participants were challenged with retrieving relevant clinical trials given the patient’s descriptions simulating admission notes. Utilizing the track results as a baseline, we tackled the challenge, for this, we re- sort to Information Retrieval (IR), implementing a pipeline for document ranking where we explore the different retrieval methods, how to filter the clinical trials based on the criteria, and reranking with Transformer based models. To tackle the problem, we ex- plored models pre-trained on the biomedical domain, how to deal with long queries and documents through query expansion and passage selection, and how to distinguish an eligible clinical trial from an excluded clinical trial, using techniques such as Named Entity Recognition (NER) and Clinical Assertion. Our results let to the finding that the current state-of-the-art Bidirectional Encoder Representations from Transformers (BERT) bi-encoders outperform the cross-encoders in the mentioned task, whilst proving that sparse retrieval methods are capable of obtaining competitive outcomes, and to finalize we showed that the use of the demographic information available can be used to improve the final result.Cerca de 80% dos ensaios clínicos não satisfazem os requisitos de recrutamento de paci- entes, o que não só dificulta o crescimento do mercado como também impede o acesso dos pacientes a novos e eficazes tratamentos. Uma abordagem possível é utilizar os Pron- tuários Eletrônicos para ajudar a combinar doentes a ensaios clínicos. Tentativas passadas para alcançar este exato objetivo tiveram lugar, mas devido à falta de dados, não foram bem sucedidos. Em 2021, a TREC introduziu a Clinical Trials Track, onde os participantes foram desafiados com a recuperação ensaios clínicos relevantes, dadas as descrições dos pacientes simulando notas de admissão. Utilizando os resultados da track como base, en- frentámos o desafio, para isso recorremos à Recuperação de Informação, implementando uma pipeline para a classificação de documentos onde exploramos os diferentes métodos de recuperação, como filtrar os ensaios clínicos com base nos critérios, e reclassificação com modelos baseados no Transformer. Para enfrentar o problema, explorámos modelos pré-treinados no domínio biomédico, como lidar com longas descrições e documentos, e como distinguir um ensaio clínico elegível de um ensaio clínico excluído, utilizando técnicas como Reconhecimento de Entidade Mencionada e Asserção Clínica. Os nossos re- sultados permitem concluir que os actuais bi-encoders de última geração BERT superam os cross-encoders BERT na tarefa mencionada, provamos que os métodos de recuperação esparsos são capazes de obter resultados competitivos, e para finalizar mostramos que a utilização da informação demográfica disponível pode ser utilizada para melhorar o resultado fina
    corecore