201 research outputs found

    Accès à l'information biomédicale : vers une approche d'indexation et de recherche d'information conceptuelle basée sur la fusion de ressources termino-ontologiques

    Get PDF
    La recherche d'information (RI) est une discipline scientifique qui a pour objectif de produire des solutions permettant de sélectionner à partir de corpus d'information celle qui sont dites pertinentes pour un utilisateur ayant exprimé une requête. Dans le contexte applicatif de la RI biomédicale, les corpus concernent différentes sources d'information du domaine : dossiers médicaux de patients, guides de bonnes pratiques médicales, littérature scientifique du domaine médical etc. Les besoins en information peuvent concerner divers profils : des experts médicaux, des patients et leurs familles, des utilisateurs néophytes etc. Plusieurs défis sont liés spécifiquement à la RI biomédicale : la représentation "spécialisée" des documents, basés sur l'usage des ressources terminologiques du domaine, le traitement des synonymes, des acronymes et des abréviations largement pratiquée dans le domaine, l'accès à l'information guidé par le contexte du besoin et des profils des utilisateurs. Nos travaux de thèse s'inscrivent dans le domaine général de la RI biomédicale et traitent des défis de représentation de l'information biomédicale et de son accès. Sur le volet de la représentation de l'information, nous proposons des techniques d'indexation de documents basées sur : 1) la reconnaissance de concepts termino-ontologiques : cette reconnaissance s'apparente à une recherche approximative de concepts pertinents associés à un contenu, vu comme un sac de mots. La technique associée exploite à la fois la similitude structurelle des contenus informationnels des concepts vis-à-vis des documents mais également la similitude du sujet porté par le document et le concept, 2) la désambiguïsation des entrées de concepts reconnus en exploitant la branche liée au sous-domaine principal de la ressource termino-ontologique, 3) l'exploitation de différentes ressources termino-ontologiques dans le but de couvrir au mieux la sémantique du contenu documentaire. Sur le volet de l'accès à l'information, nous proposons des techniques d'appariement basées sur l'expansion combinée de requêtes et des documents guidées par le contexte du besoin en information d'une part et des contenus documentaires d'autre part. Notre analyse porte essentiellement sur l'étude de l'impact des différents paramètres d'expansion sur l'efficacité de la recherche : distribution des concepts dans les ressources ontologiques, modèle de fusion des concepts, modèle de pondération des concepts, etc. L'ensemble de nos contributions, en termes de techniques d'indexation et d'accès à l'information ont fait l'objet d'évaluation expérimentale sur des collections de test dédiées à la recherche d'information médicale, soit du point de vue de la tâche telles que TREC Medical track, CLEF Image, Medical case ou des collections de test telles que TREC Genomics.Information Retrieval (IR) is a scientific field aiming at providing solutions to select relevant information from a corpus of documents in order to answer the user information need. In the context of biomedical IR, there are different sources of information: patient records, guidelines, scientific literature, etc. In addition, the information needs may concern different profiles : medical experts, patients and their families, and other users ... Many challenges are specifically related to the biomedical IR : the document representation, the usage of terminologies with synonyms, acronyms, abbreviations as well as the access to the information guided by the context of information need and the user profiles. Our work is most related to the biomedical IR and deals with the challenges of the representation of biomedical information and the access to this rich source of information in the biomedical domain.Concerning the representation of biomedical information, we propose techniques and approaches to indexing documents based on: 1) recognizing and extracting concepts from terminologies : the method of concept extraction is basically based on an approximate lookup of candidate concepts that could be useful to index the document. This technique expoits two sources of evidence : (a) the content-based similarity between concepts and documents and (b) the semantic similarity between them. 2) disambiguating entry terms denoting concepts by exploiting the polyhierarchical structure of a medical thesaurus (MeSH - Medical Subject Headings). More specifically, the domains of each concept are exploited to compute the semantic similarity between ambiguous terms in documents. The most appropriate domain is detected and associated to each term denoting a particular concept. 3) exploiting different termino-ontological resources in an attempt to better cover the semantics of document contents. Concerning the information access, we propose a document-query matching method based on the combination of document and query expansion techniques. Such a combination is guided by the context of information need on one hand and the semantic context in the document on the other hand. Our analysis is essentially based on the study of factors related to document and query expansion that could have an impact on the IR performance: distribution of concepts in termino-ontological resources, fusion techniques for concept extraction issued from multiple terminologies, concept weighting models, etc

    Contribution à la construction d’ontologies et à la recherche d’information : application au domaine médical

    Get PDF
    This work aims at providing efficient access to relevant information among the increasing volume of digital data. Towards this end, we studied the benefit from using ontology to support an information retrieval (IR) system.We first described a methodology for constructing ontologies. Thus, we proposed a mixed method which combines natural language processing techniques for extracting knowledge from text and the reuse of existing semantic resources for the conceptualization step. We have also developed a method for aligning terms in English and French in order to enrich terminologically the resulting ontology. The application of our methodology resulted in a bilingual ontology dedicated to Alzheimer’s disease.We then proposed algorithms for supporting ontology-based semantic IR. Thus, we used concepts from ontology for describing documents automatically and for query reformulation. We were particularly interested in: 1) the extraction of concepts from texts, 2) the disambiguation of terms, 3) the vectorial weighting schema adapted to concepts and 4) query expansion. These algorithms have been used to implement a semantic portal about Alzheimer’s disease. Further, because the content of documents are not always fully available, we exploited incomplete information for identifying the concepts, which are relevant for indexing the whole content of documents. Toward this end, we have proposed two classification methods: the first is based on the k nearest neighbors’ algorithm and the second on the explicit semantic analysis. The two methods have been evaluated on large standard collections of biomedical documents within an international challenge.Ce travail vise à permettre un accès efficace à des informations pertinentes malgré le volume croissant des données disponibles au format électronique. Pour cela, nous avons étudié l’apport d’une ontologie au sein d’un système de recherche d'information (RI).Nous avons tout d’abord décrit une méthodologie de construction d’ontologies. Ainsi, nous avons proposé une méthode mixte combinant des techniques de traitement automatique des langues pour extraire des connaissances à partir de textes et la réutilisation de ressources sémantiques existantes pour l’étape de conceptualisation. Nous avons par ailleurs développé une méthode d’alignement de termes français-anglais pour l’enrichissement terminologique de l’ontologie. L’application de notre méthodologie a permis de créer une ontologie bilingue de la maladie d’Alzheimer.Ensuite, nous avons élaboré des algorithmes pour supporter la RI sémantique guidée par une ontologie. Les concepts issus d’une ontologie ont été utilisés pour décrire automatiquement les documents mais aussi pour reformuler les requêtes. Nous nous sommes intéressés à : 1) l’identification de concepts représentatifs dans des corpus, 2) leur désambiguïsation, 3), leur pondération selon le modèle vectoriel, adapté aux concepts et 4) l’expansion de requêtes. Ces propositions ont permis de mettre en œuvre un portail de RI sémantique dédié à la maladie d’Alzheimer. Par ailleurs, le contenu des documents à indexer n’étant pas toujours accessible dans leur ensemble, nous avons exploité des informations incomplètes pour déterminer les concepts pertinents permettant malgré tout de décrire les documents. Pour cela, nous avons proposé deux méthodes de classification de documents issus d’un large corpus, l’une basée sur l’algorithme des k plus proches voisins et l’autre sur l’analyse sémantique explicite. Ces méthodes ont été évaluées sur de larges collections de documents biomédicaux fournies lors d’un challenge international

    Modélisation des signes dans les ontologies biomédicales pour l'aide au diagnostic.

    Get PDF
    Introduction : Établir un diagnostic médical fiable requiert l identification de la maladie d un patient sur la base de l observation de ses signes et symptômes. Par ailleurs, les ontologies constituent un formalisme adéquat et performant de représentation des connaissances biomédicales. Cependant, les ontologies classiques ne permettent pas de représenter les connaissances liées au processus du diagnostic médical : connaissances probabilistes et connaissances imprécises et vagues. Matériel et méthodes : Nous proposons des méthodes générales de représentation des connaissances afin de construire des ontologies adaptées au diagnostic médical. Ces méthodes permettent de représenter : (a) Les connaissances imprécises et vagues par la discrétisation des concepts (définition de plusieurs catégories distinctes à l aide de valeurs seuils ou en représentant les différentes modalités possibles). (b) Les connaissances probabilistes (les sensibilités et les spécificités des signes pour les maladies, et les prévalences des maladies pour une population donnée) par la réification des relations ayant des arités supérieures à 2. (c) Les signes absents par des relations et (d) les connaissances liées au processus du diagnostic médical par des règles SWRL. Un moteur d inférences abductif et probabiliste a été conçu et développé. Ces méthodes ont été testées à l aide de dossiers patients réels. Résultats : Ces méthodes ont été appliquées à trois domaines (les maladies plasmocytaires, les urgences odontologiques et les lésions traumatiques du genou) pour lesquels des modèles ontologiques ont été élaborés. L évaluation a permis de mesurer un taux moyen de 89,34% de résultats corrects. Discussion-Conclusion : Ces méthodes permettent d avoir un modèle unique utilisable dans le cadre des raisonnements abductif et probabiliste, contrairement aux modèles proposés par : (a) Fenz qui n intègre que le mode de raisonnement probabiliste et (b) García-crespo qui exprime les probabilités hors du modèle ontologique. L utilisation d un tel système nécessitera au préalable son intégration dans le système d information hospitalier pour exploiter automatiquement les informations du dossier patient électronique. Cette intégration pourrait être facilitée par l utilisation de l ontologie du système.Introduction: Making a reliable medical diagnosis requires the identification of the patient s disease based on the observation of signs. Moreover, ontologies provide an adequate and efficient formalism for medical knowledge representation. However, classical ontologies do not allow representing knowledge associated with medical reasoning such as probabilistic, imprecise, or vague knowledge. Material and methods: In the current work, general knowledge representation methods are proposed. They aim at building ontologies fitting to medical diagnosis. They allow to represent: (a) imprecise or vague knowledge by discretizing concepts (definition of several distinct categories thanks to threshold values or by representing the various possible modalities), (b) probabilistic knowledge (sensitivity, specificity and prevalence) by reification of relations of arity greater than 2, (c) absent signs by relations and (d) medical reasoning and reasoning on the absent signs by SWRL rules. An abductive reasoning engine and a probabilistic reasoning engine were designed and implemented. The methods were evaluated by use of real patient records. Results: These methods were applied to three domains (the plasma cell diseases, the dental emergencies and traumatic knee injuries) for which the ontological models were developed. The average rate of correct diagnosis was 89.34 %. Discussion-Conclusion: In contrast with other methods proposed by Fenz and García-crespo, the proposed methods allow to have a unique model which can be used both for abductive and probabilistic reasoning. The use of such a system will require beforehand its integration in the hospital information system for the automatic exploitation of the electronic patient record. This integration might be made easier by the use of the ontology on which the system is based.RENNES1-Bibl. électronique (352382106) / SudocSudocFranceF

    Exploration d’articles scientifiques sur les maladies rares pour l’extraction d’informations

    Get PDF
    Les maladies rares constituent un sujet peu connu du grand public. Néanmoins, malgré leur nom, un grand nombre de personnes sont affligées par une ou plusieurs d'entre elles. La recherche sur près de sept mille maladies rares est insuffisante, et même si certains travaux ont été réalisés pour exploiter les publications scientifiques et extraire des informations pertinentes, les connaissances sont très difficiles à obtenir pour la population en général. Ce document présente un nouveau système qui tente d'aborder l’extraction des connaissances sur les maladies rares dans les publications scientifiques. En particulier, nous nous concentrons sur la tâche d'extraire automatiquement les symptômes de maladies rares à partir de publications avec une nouvelle approche utilisant un algorithme de reconnaissance d'entité nommée (NER) basé sur la statistique numérique Term Frequency - Inverse Document Frequency (TF-IDF). L’approche envisagée permet d’atteindre un F-score de 17.17% avec une évaluation sur près de 3000 maladies rares, ce qui représente un progrès dans le cadre de l’extraction de symptômes de maladies rares à partir de publications scientifiques. Ce mémoire est séparé comme suit. Le premier chapitre introduira le contexte, les motivations, le problème de recherche, les contributions et la méthodologie. Le second chapitre est une revue de littérature qui présentera les travaux pertinents de ce travail de recherche et permettra de définir la direction prise par ce projet par rapport au sujet des maladies rares. Le troisième chapitre introduira les étapes, les concepts ainsi que les termes importants à définir dans le cadre d’un projet de « text mining ». Le quatrième chapitre décrira les différentes contributions du travail de recherche en précisant les éléments extraits, les sources de données et les algorithmes utilisés (TF-IDF modifié), sans oublier la description de l’outil développé et la phase d’expérimentation. Enfin, le dernier chapitre conclura ce travail de recherche par une revue des contributions, les limites du travail de recherche, les travaux futurs envisageables et une conclusion personnelle sur le projet de recherche

    An image processing applications development method

    Get PDF
    A new image processing application development method is presented, which is a complete and rigorous guide for the management of the whole life cycle of an application. This method points out aids, reusing, reproducibility and unifying capabilities for knowledge acquisition and for communication between the different intervening party, by providing in one hand structured models in order to collect and to organize involved knowledge and in the other hand rational cycles in order to make use of the knowledge. This article focuses on the description of the models that are the heart and the originality of the method. We show that our vision of application modeling relies on the idee-force that an image processing application is studied through out four points of view whose semantic is captured by four related models: system model, domain model, tasks model and program model.Nous proposons une méthode de développement d'applications de traitement d'images qui se présente comme un guide complet et rigoureux pour la gestion du cycle de vie entier d'une application. Cette méthode met en avant des capacités d'aide, de réutilisabilité d'expériences, de reproduction des résultats, d'uniformisation des représentations et de communication entre les différents partenaires du développement, par la définition d'une part de modèles destinés à collecter et organiser la connaissance mise en jeu et d'autre part de cycles destinés à conduire la mise en oeuvre. Cet article se focalise sur la description des modèles qui font le coeur et l'originalité de cette méthode. Nous montrons que notre vision de la modélisation d'une application se fonde sur l'idée force qu'une application de traitement d'images s'observe selon quatre points de vue complémentaires dont la sémantique est capturée par quatre modèles spécifiques : le modèle du système, le modèle du domaine, le modèle des tâches et le modèle du programme

    Un dictionnaire pour faciliter la recherche des gènes dans la littérature et sur Internet

    Full text link
    Mémoire numérisé par la Direction des bibliothèques de l'Université de Montréal

    À qui le crédit? Division du travail et du capital dans les collaborations de recherche

    Full text link
    Cette thèse de doctorat a été financée par le programme de bourses d'études supérieures du Canada Joseph-Armand-Bombardier.Le statut d’auteur attribue à la fois le crédit et la responsabilité aux chercheurs pour leur contribution à l’avancement des connaissances, et permet l’existence d’une économie du capital symbolique où les chercheurs bâtissent leur réputation et progressent dans leur carrière en signant des articles. Ce système repose sur l’existence d’un lien historiquement clair entre le statut d’auteur et la contribution. Or, ce lien est obscurci par le nombre de plus en plus élevé d’auteurs sur les articles scientifiques, par le fait que le statut d’auteur peut être attribué pour des contributions hétérogènes, parfois minimes, ou même nulles, et par la subjectivité du processus d’attribution du statut d’auteur. Ainsi, lorsqu’un article est signé par plusieurs individus, il est difficile de déterminer les contributions de chacun. Dans certaines disciplines, les chercheurs participent de plus en plus au régime de protection de la propriété intellectuelle en brevetant leurs découvertes. Contrairement au statut d’auteur, dont les pratiques d’attribution sont de plus en plus hétérogènes et subjectives, le statut d’inventeur d’un brevet est, de par son aspect légal, attribué selon des critères plus stricts. Il est en effet réservé aux individus ayant participé à la conception et à la matérialisation de l’invention. Ainsi, dans le cas des travaux de recherche menant à la fois à un article et à un brevet, la liste des inventeurs du brevet permet, en théorie, d’identifier parmi les auteurs ceux qui ont fait une contribution inventive et, donc, de mieux comprendre la relation entre le statut d’auteur et la nature de la contribution effectuée par chacun des auteurs de l’article. Notre étude compare les listes d’auteurs et d’inventeurs d’articles et de brevets issus de la même recherche afin de mieux comprendre les pratiques d’attribution des statuts d’auteur et d’inventeur. Nous utilisons la régression linéaire pour analyser la relation entre les caractéristiques de l’article (discipline, impact scientifique potentiel, nombre d’auteurs, collaboration interinstitutionnelle) et la proportion d’auteurs qui sont aussi inventeurs. De plus, nous utilisons la régression logistique pour déterminer dans quelle mesure il est possible de prédire quels auteurs d’un article obtiendront également le statut d’inventeur à partir de leur position dans la liste des auteurs, leur rôle, leur contribution, leur sexe et leur réputation. Les résultats montrent que la proportion moyenne des auteurs qui obtiennent le statut d’inventeur est liée à la discipline, est plus faible pour les recherches impliquant plusieurs institutions, et est plus élevée pour les articles publiés dans une revue à haut facteur d’impact. Les résultats montrent également que les auteurs occupant la première et la dernière position dans les listes d’auteurs sont plus souvent inventeurs que les auteurs occupant les autres positions, que les auteurs hautement cités sont plus souvent inventeurs que les auteurs peu cités, et que les hommes sont plus souvent inventeurs que les femmes.The function of scientific authorship is to assign credit and responsibility to researchers for their contribution to a piece of knowledge, thus enabling the existence of an economy of reputation economy in which researchers advance their careers by, among others, having their names associated to scientific work. This system relies on the existence of a historically clear link between authorship and contribution. However, this link is obscured by the increasingly high number of authors appearing in the bylines of scientific papers, by the fact that authorship can be given for diverse (sometimes very small) contributions, and by the subjectivity of authorship decisions. Thus, when an article is authored by several researchers, it becomes difficult to determine their respective contributions. In certain research fields, researchers can be involved in the commercialization of research, and often patent their discoveries. Patents are thus another form of contribution which is valued in the evaluation of researchers. Unlike the heterogeneous and subjective authorship practices, inventorship is, because if its legal aspect, awarded using stricter criteria. It is reserved for individuals who designed and materialized the invention. In some cases, research may lead to both an article and a patent. The list of inventors can then, in theory, help identify the authors who have made an inventive contribution and thus provide a better understanding of the relationship between authorship and the nature of the individual researchers’ contribution to the work. Our study compares the lists of authors and inventors of articles and patents reporting the same research. Specifically, we use linear regression to analyse the relationship between the characteristics of articles (discipline, potential impact, number of authors, interinstitutional collaboration) and the proportion of authors who also appear as inventors. In addition, we use logistic regression to determine to what extent the inventor status of authors can be predicted by their position in the byline of the paper, their role in the research, the nature of their contribution, their gender and their reputation. The results show that the average proportion of authors who are named inventors differs by discipline, is lower for research involving multiple institutions, and is higher when the article is published in a top Impact Factor journal. The results also show that the authors in the first and last positions of the byline are more often inventors than authors in other positions, that highly cited authors are more often inventors than authors with fewer citations, and that men are more often inventors than women

    Moteur de question-réponse pour les sciences biomédicales

    Get PDF
    La littérature concernant le domaine médical atteint un volume dépassant l’entendement humain et ne cesse d’augmenter. Si nous nous concentrons sur les documents numériques qui permettent la recherche en ligne d’information quelconque, l’exploitation de cette quantité rend la précision complexe et chronophage. Ce problème a motivé le développement d’outils plus évolués comme les systèmes de question-­réponse. Ces derniers autorisent l’utilisateur à poser des questions en langage dit naturel. L’objectif de notre travail est d’augmenter la performance du mode question-­réponse du moteur EAGLi. Pour mesurer les performances de notre apport, une analyse a été réalisée à partir de questions et de scores d’autres moteurs, le tout issu de la campagne d’évaluation internationale BioASQ. Notre revue de la littérature, pour commencer, synthétise des données sur la prolifération des sources numériques, en particulier dans le domaine biomédical. Nous développons également les solutions de prospection grâce aux moteurs de recherches, plus particulièrement ceux dit de question-­réponse. Cet environnement décrit nous aide à aborder les challenges liés au développement et à l’amélioration de ces outils avec la mise en exergue du concours en ligne BioASQ. La focalisation sur ce challenge, nous permet de faire ressortir une des phases qui correspond à notre projet. Ce dernier consiste à reformuler des questions manuellement qui sont issues du challenge évoqué ci-­dessus. Il s’agit aussi dans une certaine mesure d’améliorer la couverture du système en augmentant les données à sa disposition. Ce procédé nous a permis d’évaluer nos performances. Le moteur EAGLi nécessite principalement une typologie de phrase précise ainsi que des patrons de questions pour interagir avec la base de données MEDLINE. Son architecture, notre méthodologie ainsi que l’évaluation de nos résultats sont développés dans ce rapport. Ces derniers sont satisfaisants et nous laissent à penser que malgré l’ampleur de la tâche associée au Question Answering, ce domaine particulier de la recherche d’information va sans nul doute se perfectionner

    Méthodes de vision et d'intelligence artificielles pour la reconnaissance de spécimens coralliens

    Get PDF
    Ce mémoire traite de l'automatisation de l'extraction de données nécessaires à la caractérisation de la biodiversité d’espèces benthiques, une problématique environnementale d’actualité. L'impact des activités humaines sur la faune marine est une préoccupation grandissante. Les eaux des Philippines, qualifiées par plusieurs écologistes comme étant le « berceau de la biodiversité marine », sont comme tant d’autres sous la menace constante des changements climatiques, de la pêche invasive et de la pollution côtière. Notre sujet d'intérêt, les récifs coralliens, sont une des principales victimes de ces perturbations humaines. Le phénomène est largement reconnu, mais malheureusement aucune évaluation quantitative des dommages causés à la biodiversité ne peut être obtenue facilement. Les écologistes ont besoin d'outils, permettant de traiter en lot les données recueillies sur le terrain pour conclure sur le véritable impact de l'homme sur cet écosystème fragile. Dans ce contexte, le but de l’étude est de fournir une implémentation logicielle capable d’automatiser la détection et l’identification de spécimens coralliens dans une banque de photographies sous-marines. Pour ce faire, deux approches distinctes ont été mises à l’essai : l’identification des coraux en fonction de leur forme de croissance (la représentation par formes benthiques) et l’identification précise de l’espèce des spécimens (la représentation taxinomique). Pour l’identification par formes benthiques, divers outils de vision artificielle, tels les descripteurs issus des matrices de cooccurrence des tons de gris (GLCM), des motifs binaires locaux (LBP), de l’histogramme des tons et de la transformée de Fourier ont été mis à l’essai. Ces descripteurs ont été utilisés conjointement à divers algorithmes de reconnaissance de formes tels le classificateur bayesien, la méthode des plus proches voisins, l’arbre de classification C4.5, le séparateur à vaste marge (SVM) et le perceptron multicouches qui ont été comparés dans ce contexte de classification par formes benthiques. Dans un deuxième temps, l’expérimentation a été reprise sur le problème de classification taxinomique. Au cours de cette étude, la problématique de segmentation automatisée des spécimens de corail a été abordée. Une présegmentation par laplacien du gaussien et partage des eaux, suivie d’une classification des segments avec un SVM optimisé, utilisant les descripteurs développés précédemment, se sont avérées une solution efficace à ce problème. Par la suite, les segments appartenant au corail (et non à l’arrière plan) ont été classifiés à l’aide d’un autre SVM entraîné à cet effet. Les résultats obtenus démontrent qu’il est possible d’implémenter un tel système de reconnaissance automatisée du benthos. Toutefois, plusieurs conditions devront être respectées pour en assurer le succès : (1) pour être robuste, le système de segmentation et de classification de corail doit être entraîné avec un nombre suffisant d'échantillons et (2) le protocole d'acquisition des données et d’extraction de descripteurs doit être bien défini pour maximiser les performances
    • …
    corecore