7 research outputs found

    Indexação automática e ontologias: identificação dos contributos convergentes na ciência da informação

    Get PDF
    A indexação, humana e automática, foi desde sempre uma preocupação da área da ciência da informação (CI). A falta de consistência na indexação humana e de semântica na automática são apontadas como as grandes desvantagens. Uma possibilidade de dotar sistemas computacionais com maior capacidade de inferência reside na utilização de ontologias. Desta proposição objetiva-se identificar e analisar os estudos na área da CI que abordem as contribuições das antologias na indexação automática. Pretende-se (i) identificar os trabalhos científicos, nas bases Library & Information Science Source e Library, Information Science & Technology Abstracts que abordem este assunto, a sua distribuição temporal e geográfica; (ii) identificar e descrever a centralidade da abordagem temática aos dois conceitos (indexação automática e ontologias), e a abordagem metodológica dos respetivos artigos; (iii) identificar as contribuições presentes nos artigos que constituem o corpus relativamente às potencialidades da utilização conjunta dos dois conceitos. Partiu-se de um estudo exploratório assente numa revisão sistemática da literatura. Os resultados apontam como contribuições das ontologias na indexação automática: (i) desambiguar termos homógrafos e polissémicos; (ii) maior capacidade de integração de relações semânticas de forma automatizada; (iii) uma navegação e expansão de consultas através de relações semânticas; (iv) uma recuperação mais precisa e exaustiva da informação. Conclui-se que o desenvolvimento de sistemas que utilizam o potencial das ontologias na indexação automática procura contornar a sua falta de capacidade semântica. Apesar dos resultados promissores nesta matéria, infere-se que é ainda prematuro e inadequado falar de uma indexação semântica efetiva

    OBIRS-feedback, une méthode de reformulation utilisant une ontologie de domaine

    Get PDF
    National audienceLes performances d'un système de recherche d'information (SRI) peuvent être dégradées en termes de précision du fait de la difficulté pour des utilisateurs à formuler précisément leurs besoins en information. La reformulation ou l'expansion de requêtes constitue une des réponses à ce problème dans le cadre des SRI. Dans cet article, nous proposons une nouvelle méthode de reformulation de requêtes conceptuelles qui, à partir de documents jugés pertinents par l'utilisateur et d'une ontologie de domaine, cherche un ensemble de concepts maximisant les performances du SRI. Celles-ci sont évaluées, de manière originale, à l'aide d'indicateurs dont une formalisation est proposée. Cette méthode a été évaluée en utilisant notre moteur OBIRS, l'ontologie de domaine MeSH et la collection de tests MuCHMORE

    Indexação automática e ontologias: identificação dos contributos convergentes na ciência da informação

    Get PDF
    A indexação, humana e automática, foi desde sempre uma preocupação da área da ciência da informação (CI). A falta de consistência na indexação humana e de semântica na automática são apontadas como as grandes desvantagens. Uma possibilidade de dotar sistemas computacionais com maior capacidade de inferência reside na utilização de ontologias. Desta proposição objetiva-se identificar e analisar os estudos na área da CI que abordem as contribuições das antologias na indexação automática. Pretende-se (i) identificar os trabalhos científicos, nas bases Library & Information Science Source e Library, Information Science & Technology Abstracts que abordem este assunto, a sua distribuição temporal e geográfica; (ii) identificar e descrever a centralidade da abordagem temática aos dois conceitos (indexação automática e ontologias), e a abordagem metodológica dos respetivos artigos; (iii) identificar as contribuições presentes nos artigos que constituem o corpus relativamente às potencialidades da utilização conjunta dos dois conceitos. Partiu-se de um estudo exploratório assente numa revisão sistemática da literatura. Os resultados apontam como contribuições das ontologias na indexação automática: (i) desambiguar termos homógrafos e polissémicos; (ii) maior capacidade de integração de relações semânticas de forma automatizada; (iii) uma navegação e expansão de consultas através de relações semânticas; (iv) uma recuperação mais precisa e exaustiva da informação. Conclui-se que o desenvolvimento de sistemas que utilizam o potencial das ontologias na indexação automática procura contornar a sua falta de capacidade semântica. Apesar dos resultados promissores nesta matéria, infere-se que é ainda prematuro e inadequado falar de uma indexação semântica efetiva

    Using Association Rules to Enrich Arabic Ontology

    Get PDF
    In this article, we propose the use of a minimal generic base of associative rules between term association rules, to automatically enrich an existing domain ontology. Initially, non-redundant association rules between terms are extracted from an Arabic corpus. Then, the matching of the candidate terms is done through the matching between the concepts of the initial ontology and the premises of the association rules, with three distance measures that we define

    INEX Tweet Contextualization Task: Evaluation, Results and Lesson Learned

    Get PDF
    Microblogging platforms such as Twitter are increasingly used for on-line client and market analysis. This motivated the proposal of a new track at CLEF INEX lab of Tweet Contextualization. The objective of this task was to help a user to understand a tweet by providing him with a short explanatory summary (500 words). This summary should be built automatically using resources like Wikipedia and generated by extracting relevant passages and aggregating them into a coherent summary. Running for four years, results show that the best systems combine NLP techniques with more traditional methods. More precisely the best performing systems combine passage retrieval, sentence segmentation and scoring, named entity recognition, text part-of-speech (POS) analysis, anaphora detection, diversity content measure as well as sentence reordering. This paper provides a full summary report on the four-year long task. While yearly overviews focused on system results, in this paper we provide a detailed report on the approaches proposed by the participants and which can be considered as the state of the art for this task. As an important result from the 4 years competition, we also describe the open access resources that have been built and collected. The evaluation measures for automatic summarization designed in DUC or MUC were not appropriate to evaluate tweet contextualization, we explain why and depict in detailed the LogSim measure used to evaluate informativeness of produced contexts or summaries. Finally, we also mention the lessons we learned and that it is worth considering when designing a task

    Représentation multi-facette des documents pour leur accès sémantique

    Get PDF
    La recherche d'information (RI) est un domaine prépondérant dans la vie contemporaine car elle permet de disposer d'éléments d'informations qui permettent d'agir et de prendre des décisions face à une situation donnée. En effet, l'objectif d'une RI est de s'informer, d'apprendre de nouvelles notions que nous ne maîtrisons pas. La disponibilité et la pertinence de ces nouvelles informations ont donc une très grande influence sur la prise de décision. La plupart des moteurs de recherche actuels utilisent des index regroupant les mots représentatifs des documents afin de permettre leur recherche ultérieure. Dans ces méthodes, les documents et les requêtes sont considérées comme des sacs de mots, non porteurs de sens. L'une des méthodes innovantes actuelles est l'indexation et la recherche sémantique des documents. Il s'agit de mieux prendre en compte le besoin de l'utilisateur en considérant la sémantique des éléments textuels. Nous nous intéressons à cet aspect de la RI en considérant une indexation et une recherche à base d'ontologies de domaine. Les solutions que nous proposons visent à améliorer la pertinence des réponses d'un système par rapport au thème de la recherche. Le discours contenu dans un document ou dans une requête ne sont pas les seuls éléments à prendre en compte pour espérer mieux satisfaire l'utilisateur. D'autres éléments relatifs au contexte de sa recherche doivent aussi être pris en compte. La granularité des informations à restituer à l'utilisateur est un autre aspect. Nous nous sommes intéressés à ces différents aspects et avons développé un méta-modèle de représentation multi-facette des documents en vue de leur accès sémantique. Dans notre modèle, le document est vu selon différentes dimensions dont la structure logique, la structure physique, la sémantique des contenus ainsi que leurs évolutions dans le temps. Nous avons également proposé des mesures de similarité sémantique entre concepts et une fonction de similarité entre les graphes d'annotation des requêtes et ceux des documents. Pour évaluer et valider nos solutions, nous avons instancié ce modèle dans trois domaines distincts : l'apprentissage en ligne, la maintenance automobile et les partitions musicales Braille. Nous avons également évalué les résultats en termes de rappel/précision des fonctions que nous avons proposées et montré leur supériorité par rapport à l'état de l'art.Information retrieval is part of our contemporary life because it helps us to find information which helps us in acting and decision making. Indeed, the objective of any information retrieval task is to learn new facts, new notions. Thus, the availability and relevance of the pieces of new information we access have a high influence on decisions we make. Most of the current search engines use indexes composed of the representative words from the documents; these indexes allow their access when compared to users' queries. These techniques consider documents and queries as bags of words but not the discourse they contain. One of the new methods to face the understanding of user's needs is semantic indexing and retrieval. In this thesis, we consider semantic indexing when based on ontologies that gather the domain knowledge. Matching content is not the only aspects that interest the user when searching for information. We consider other aspects such as the granularity of the elements to retrieve, the meta-data that can be associated with contents and the context in which the search is made. We consider these different aspects and propose a generic model based on a multi-facet representation. The facet related to document content is deeply studied. We made proposition related to semantic retrieval based on graph concepts and suggested a family of concept similarity functions and a graph similarity function that allow to compare graph concepts from documents and from queries. The dynamic aspect of the document collection has also been studied. To validate this model we considered three application domains: e-learning, automobile diagnostic and Braille musical scores. We also evaluate our semantic similarity functions in terms of recall and precision and show their effectiveness
    corecore