21 research outputs found

    The Hypertext Corpus Initiative:methods and tools for Social Sciences to build corpus from the web

    Get PDF
    Since its foundation in May 2009, Sciences Po’s médialab has worked to enhance the use of digital methods and tools in Social Sciences. With the help of current tools and methods, we experienced the use of web mining techniques to extract and mine digital traces (hypertext links, spontaneous expression on blogs or social networks...) of collective phenomena. Our intention is to consider the web as a field to build new kind of corpora, and not as a research object in itself (web studies), neither as a media (innovative digital mediated surveys) nor as a medium (publishing or accessing structured digital data from the web). This approach raised methodological and practical issues starting with the difficulty to build the highly accurate corpora needed by social scientists from the very complex document space that is the web : it has no size (too big, too dynamic), no clear boundaries because of its hyperlink structure and is composed of a wide heterogeneity of documents (technically, in usage, in time). How to qualitatively identify, select and collect web resources in such a quantitative context ? What does accuracy and representativity means in the moving matters of the web ? What are the tools which can equip the social scientists to build those new kind of corpora ? Because we couldn't find a good enough answer to those questions by using the existing tools we decided to launch in October 2010 the Hypertext Corpus Initiative gathering actors from web archiving, web mining, social sciences and librarians communities. HCI provides for social scientists a new set of methodology and tools, allowing them to mine more accurately digital traces of social phenomena from the web. We will present in this paper the 4 mains methodological and technical issues discussed in HCI which lead us into developing a new set of tools : (1) “what is a web corpus ?”, introducing the concept of web entities to handle the complexity and heterogeneity of web resources; (2) “how to build a web corpus ?”, the methodological and technological issues regarding the quali- quantitative process of building a web corpus proposing to organize a research driven crawling for social sciences purposes; (3) “how to analyze a web corpus ?”, we would like to identified opportunities and limitations in using the web as a research field; (4) “how to foster the use of web archives by social scientists ?”, by applying web corpus principles to the archived web

    Construire une ontologie de la Pneumologie <br />Aspects théoriques, modèles et expérimentations

    Get PDF
    Depuis une vingtaine d'années, l'accès aux connaissances médicales est un enjeu majeur pour les professions de santé comme pour le grand public. Les limites actuelles des outils de traitement de l'information ne proviennent pas de leurs performances pour stocker et traiter rapidement des gros volumes, mais de leur incapacité à prendre en compte les spécificités des vocabulaires métier des utilisateurs. Le développement de ressources terminologiques et ontologiques pour faciliter l'usage des terminologies nationales et internationales, disponibles notamment dans le domaine de la médecine, revêt par conséquent une importance particulière. Il faut également souligner la pertinence de telles recherches dans la mouvance des Sciences et Technologies de l'Information et de la Communication, dans le cadre de la société de l'information et dans le contexte du Web sémantique. Dans ce contexte, notre réflexion a porté sur la collecte, l'organisation, la représentation et la formalisation des connaissances en médecine, tout particulièrement, dans le domaine de la pneumologie. Nous avons été amenés à considérer le problème dans son ensemble, afin de comprendre les mécanismes qui sous-tendent la constitution de ressources terminologiques et ontologiques à partir de textes. Nous avons également considéré chaque tâche séparément, afin de proposer, pour chaque étape, si ce n'est une solution, au moins un savoir-faire personnel susceptible d'apporter des éléments de réponse. L'objectif principal de cette thèse consiste à mettre au point une ontologie dans le domaine de la pneumologie pour faciliter, d'une part, l'aide au codage médico-économique des pathologies et, d'autre part, la représentation des connaissances pertinentes relatives au patient, dans ce domaine de spécialité. Nos recherches couvrent l'ensemble du cycle de vie d'une ontologie, de la mise au point d'une méthodologie de construction à partir de textes à son utilisation dans un système opérationnel. Nous contribuons aux recherches dans les domaines de l'Ingénierie des connaissances et de l'Informatique médicale. La méthode de travail adoptée est une démarche expérimentale ascendante qui consiste à partir des problématiques concrètes rencontrées pour aller vers la résolution des questions scientifiques sous-jacentes. Selon cette démarche, nous avons tout d'abord cerné les besoins des pneumologues en termes de représentation des connaissances. Ensuite, nous avons mis au point une méthodologie, destinée à l'ingénieur des connaissances, fondée sur la méthode ARCHONTE définie par B. Bachimont. L'enchaînement des processus d'extraction, de sélection et de choix des candidates termes du domaine ainsi que l'aide fournie par les patrons lexico-syntaxiques pour renseigner les principes différentiels la rende relativement facile d'emploi (ou moins difficile qu'une autre) pour un ingénieur des connaissances. L'ontologie construite compte à ce jour 2260 concepts primitifs. Enfin, nous avons développé un outil de codage semi-automatique proposant deux types de codages : (1) un codage médical qui représente graphiquement les informations pertinentes relatives aux pathologies du patient et qui, à terme, servira de descripteur pour indexer intelligemment les comptes rendus d'hospitalisation ; (2) un codage médico-économique pour lequel nous obtenons un rappel de 80% et une précision de 87%. Nos résultats concernant l'ontologie et l'outil nous encouragent à poursuivre nos recherches et à améliorer les solutions proposées

    OffField:Multi-positioning Seen through Network Analysis

    Get PDF
    International audienceCet article reprend une recherche de Luc Boltanski sur les enseignants de l'IEP de Paris. Dans cette recherche, Boltanski s'appuie sur une représentation tabulaire des champs sociaux pour montrer que la classe dominante se caractérise avant tout par sa multipositionnalité, c'est-à-dire par la tendance de ses membres à occuper plusieurs positions dans plusieurs champs. En remplaçant le tableau de Boltanski par un graphe d'individus et d'institutions, nous discuterons les caractéristiques et les avantages d'une sociologie de réseaux hétérogènes

    Construction d'ontologies médicales à partir de textes : propositions methodologiques

    No full text
    National audienceDans le contexte du codage des activités médicales, il est nécessaire de construire des représentations conceptuelles des connaissances. Cet article apporte des propositions méthodologiques sur la construction d'ontologies médicales, à partir de textes, à l'adresse d'un ingénieur cogniticien. Cette méthodologie est fondée sur la mise en œuvre des principes de la sémantique différentielle et utilise les outils de traitement automatique de la langue. Notre principale hypothèse de recherche concerne l'utilisation conjointe de deux méthodes : une méthode éprouvée qui consiste à construire des ressources termino-ontologiques par analyse distributionnelle et une méthode fondée sur la recherche de relations sémantiques par l'utilisation de patrons lexico-syntaxiques

    Building medical ontologies based on terminology extraction from texts: an experimentation in pneumology.

    No full text
    Pathologies and acts are classified in thesauri to help physicians to code their activity. In practice, the use of thesauri is not sufficient to reduce variability in coding and thesauri do not fit computer processing. We think the automation of the coding task requires a conceptual modelling of medical items: an ontology. Our objective is to help pneumologists code acts and diagnoses with a software that represents medical knowledge by an ontology of the concerned specialty. The main research hypothesis is to apply natural language processing tools to corpora to develop the resources needed to build the ontology. In this paper, our objective is twofold: we have to build the ontology of pneumology and we want to develop a methodology for the knowledge engineer to build various types of medical ontologies based on terminology extraction from texts

    Methodology to build medical ontology from textual resources.

    No full text
    In the medical field, it is now established that the maintenance of unambiguous thesauri goes through ontologies. Our research task is to help pneumologists code acts and diagnoses with a software that represents medical knowledge through a domain ontology. In this paper, we describe our general methodology aimed at knowledge engineers in order to build various types of medical ontologies based on terminology extraction from texts. The hypothesis is to apply natural language processing tools to textual patient discharge summaries to develop the resources needed to build an ontology in pneumology. Results indicate that the joint use of distributional analysis and lexico-syntactic patterns performed satisfactorily for building such ontologies

    Extraction et contextualisation des connaissances

    No full text

    Extraction et contextualisation des connaissances

    No full text
    corecore