916 research outputs found

    Une mesure de similarité sémantique utilisant des résultats de psychologie

    Get PDF
    National audienceL'utilisation d'ontologies, c'est-à-dire de bases de connaissances, en recherche d'information est devenue une voie très explorée. Cela permet de dépasser de nombreux problèmes liés aux comparaisons terme à terme entre documents ou entre documents et requêtes, en passant à un niveau d'abstraction supérieur qui n'est pas soumis aux limitations intrinsèques à l'utilisation de mots-clés. De nombreuses techniques utilisent désormais les ontologies (expansion de requêtes, désambiguïsation sémantique, etc.) dans le but d'obtenir de meilleurs résultats en recherche d'information. Un problème récurrent de ces applications est la mesure de proximité entre concepts dans une ontologie. Elle a été étudiée par de nombreux auteurs, et deux grandes approches se sont détachées : les approches basées sur les arcs, c'est-à-dire sur la structure de l'ontologie, et les approches utilisant le contenu informatif des concepts, donc en passant par des corpus renseignant l'importance des concepts dans un document. Nous avons eu besoin de comparer les mesures classiques de distance entre concepts dans une ontologie. Des résultats de psychologie nous ont amenés à en choisir une qui respecte plus la manière dont un humain juge la proximité entre entités

    Le filtrage basé sur le contenu pour la recommandation de cours (FCRC)

    Get PDF
    RÉSUMÉ La recherche d'un cours sur un sujet précis dans un répertoire d'une ou de plusieurs universités peut s'avérer fastidieuse. Seulement à Montréal, on compte plusieurs milliers de cours universitaires offerts. Le problème est accentué par la multidisciplinarité de certains cours. Les étudiants de cycle supérieur sont responsables de ¬¬¬choisir leur plan d’études, les cours pertinents à leur domaine de recherche, mais ce n’est pas évident qu’ils puissent faire le bon choix des cours sans avoir besoin d’être guidés ou orientés. Encore, les étudiants du premier cycle ont souvent le problème du nombre de places limité dans un groupe de cours. Avec un outil permettant d'établir la similarité entre des cours, les étudiants pourraient trouver rapidement des cours similaires à ceux qui, pour une raison ou une autre, ne sont pas disponibles à un trimestre ou pour leur plan d’étude. A cette fin, plusieurs systèmes de filtrage ont été proposés, mais le filtrage basé sur le contenu pour la recommandation de cours, n’a jamais été abordé avant. L’objectif est de créer un système permettant d’établir la similarité entre les cours en se basant sur leurs descriptions et sur le calcul de leur distance dans un espace vectoriel . Ce mémoire présente le système FCRC (Filtrage basé Contenu pour la Recommandation de Cours) qui fournit des suggestions de cours sur la base de leur similarité sémantique. Les résultats montrent que la mesure de similarité basée sur le cosinus fournit des recommandations relativement précises et complètes. Le coefficient de Dice permet aussi d’obtenir de bons résultats. Ces deux mesures sont les plus performantes. Nous sommes arrivés à identifier plus que cinq cours les plus similaires à l’intérieur des dix premiers résultats.----------ABSTRACT Searching for courses on a topic in a university database or listing of courses can prove difficult. Strictly in Montreal universities, the number of courses range in the thousands. The problem is exacerbated by the fact that many courses are multidisciplinary. For graduate students in particular, who should look for courses on a topic related to their research, it implies that defining their course plan can be a difficult process that requires some assistance. Even when a course that is relevant is found, it often is not offered in the right semester or it is filled to capacity. Therefore, a system that provides a means of finding courses based on their similarity would prove very useful. A number of systems have been developed to provide course recommendations to students, but we aim to define an approach that is solely content-based, using the similarity of course descriptions. The algorithm is based on the vector-space model of the term-document matrix. This thesis presents the FCRC approach (content-based course recommender) which offers recommendations based on course similarity measures. Results show that the similarity measured on the cosine between document vectors offers relatively complete and precise recommendations. The Dice coefficient is also a good measure of similarity. In general, the first 5 of 10 recommendations are relevant based on this approach, and the recall rate is close to 100%

    Un modèle de recherche d'information basé sur les graphes et les similarités structurelles pour l'amélioration du processus de recherche d'information

    Get PDF
    The main objective of IR systems is to select relevant documents, related to a user's information need, from a collection of documents. Traditional approaches for document/query comparison use surface similarity, i.e. the comparison engine uses surface attributes (indexing terms). We propose a new method which uses a special kind of similarity, namely structural similarities (similarities that use both surface attributes and relation between attributes). These similarities were inspired from cognitive studies and a general similarity measure based on node comparison in a bipartite graph. We propose an adaptation of this general method to the special context of information retrieval. Adaptation consists in taking into account the domain specificities: data type, weighted edges, normalization choice. The core problem is how documents are compared against queries. The idea we develop is that similar documents will share similar terms and similar terms will appear in similar documents. We have developed an algorithm which traduces this idea. Then we have study problem related to convergence and complexity, then we have produce some test on classical collection and compare our measure with two others that are references in our domain. The Report is structured in five chapters: First chapter deals with comparison problem, and related concept like similarities, we explain different point of view and propose an analogy between cognitive similarity model and IR model. In the second chapter we present the IR task, test collection and measures used to evaluate a relevant document list. The third chapter introduces graph definition: our model is based on graph bipartite representation, so we define graphs and criterions used to evaluate them. The fourth chapter describe how we have adopted, and adapted the general comparison method. The Fifth chapter describes how we evaluate the ordering performance of our method, and also how we have compared our method with two others.Cette thèse d'informatique s'inscrit dans le domaine de la recherche d'information (RI). Elle a pour objet la création d'un modèle de recherche utilisant les graphes pour en exploiter la structure pour la détection de similarités entre les documents textuels d'une collection donnée et une requête utilisateur en vue d'améliorer le processus de recherche d'information. Ces similarités sont dites « structurelles » et nous montrons qu'elles apportent un gain d'information bénéfique par rapport aux seules similarités directes. Le rapport de thèse est structuré en cinq chapitres. Le premier chapitre présente un état de l'art sur la comparaison et les notions connexes que sont la distance et la similarité. Le deuxième chapitre présente les concepts clés de la RI, notamment l'indexation des documents, leur comparaison, et l'évaluation des classements retournés. Le troisième chapitre est consacré à la théorie des graphes et introduit les notations et notions liées à la représentation par graphe. Le quatrième chapitre présente pas à pas la construction de notre modèle pour la RI, puis, le cinquième chapitre décrit son application dans différents cas de figure, ainsi que son évaluation sur différentes collections et sa comparaison à d'autres approches

    SLAM : Solutions lexicales automatique pour métaphores

    Get PDF
    30 pagesInternational audienceThis article presents SLAM, an Automatic Solver for Lexical Metaphors like “déshabiller* une pomme” (to undress* an apple). SLAM calculates a conventional solution for these productions. To carry on it, SLAM has to intersect the paradigmatic axis of the metaphorical verb “déshabiller*”, where “peler” (“to peel”) comes closer, with a syntagmatic axis that comes from a corpus where “peler une pomme” (to peel an apple) is semantically and syntactically regular. We test this model on DicoSyn, which is a “small world” network of synonyms, to compute the paradigmatic axis and on Frantext.20, a French corpus, to compute the syntagmatic axis. Further, we evaluate the model with a sample of an experimental corpus of the database of Flexse

    Exploration des stratégies de catégorisation implicites et explicites de haut niveau dans l'aphasie

    Get PDF
    This investigation assesses higher-order auditory categorization mechanisms in aphasia. The theoretical background builds upon the basic premises of the prototype theory and on recent studies on cognitive categorization, considered to be one of the core mechanisms of human cognition. A computer program interface (TCL-lab.025) was used to observe categorization in a graded manner, ranging from unrestricted to guided tasks, as a means to explore implicit vs. explicit categorization mechanisms. The stimuli consisted of sentences displaying multidimensional commonalities across three linguistic components: semantics, prosody and syntax. The experiments were conducted on a population of thirty healthy controls and twenty-one aphasia patients. In total, seven experiments were designed as follows: one free sorting task, three induced categorization tasks and three guided tasks, each concerning one of the above mentioned linguistic components. Results were analyzed for each component and compared to complementary psycholinguistic and demography data collected. Procedural results were also included in the analysis. Global results point to a distinction between the mechanisms engaged for categorizing through meaning, form and structure. Important differences across tasks are also discussed. Results are interpreted according to the theoretical premises emanating from previous investigations in the field.Cette recherche s'intéresse au fonctionnement des mécanismes de catégorisation orale de haut niveau dans l'aphasie. Elle s'inscrit dans le cadre théorique de la catégorisation cognitive, pierre angulaire de la cognition humaine, notamment en ce qui concerne la théorie du prototype. Le logiciel utilisé (TCL-Lab, 0.25) permet d'observer les stratégies de catégorisation implicite et explicite de manière graduelle : une tâche de catégorisation libre, suivie d'une tâche induite, et pour finir, une tâche de catégorisation guidée. Les stimuli sont composés de phrases partageant des traits linguistiques communs aux niveaux sémantique, prosodique et syntaxique. Les expériences ont été menées auprès d'une population de trente sujets sains et de vingt-et-un patients aphasiques. Au total, sept expériences ont été proposées : une tâche de catégorisation libre, trois tâches de catégorisation induites et trois tâches de catégorisation guidées, chacune correspondant à l'une des composantes langagières évaluées. Les résultats ont été analysés pour chaque composante et comparés aux données psycholinguistiques et démographiques complémentaires. Des données procédurales ont été également prises en compte dans l'analyse. Globalement, les résultats favorisent l'hypothèse d'une distinction entre les mécanismes déclenchés pour la catégorisation dans les pour la catégorisation dans les trois domaines : sémantique, prosodie et syntaxe. Des différences importantes, qui se dégagent de la comparaison des résultats inter-tâches, font également partie de la discussion. Les résultats sont interprétés à partir des postulats théoriques des travaux récents dans le domaine

    Aspects sémantiques et syntaxiques de l’accès au lexique lors de la production de parole

    Get PDF
    [IN FRENCH] The speech production processes that have been studied in this thesis are the mechanisms of information processing that bridge the gap between the selection of a message to communicate and the articulation of the words that will covey it. More precisely, we conducted a cognitive study of the processes involved in lexical access. The first part of this thesis is a general introduction to the field that includes a survey of the literature. Secondly, we present a collection of normative data that characterizes an important number of experimental stimuli (pictures and words). The study of the semantic and syntactic aspects of lexical selection is then approached by means of the picture naming paradigm, among others.\ud The experiments that tackled the role of syntactic information show the existence of a syntactic congruency effect when grammatical gender properties are manipulated. This effect is only present for closed-class primes (determiners) and is not due to the phonological form of the prime-target pairs. It is interpreted as the consequence of an irrepressible binding of the prime and the target. Such a binding is probably due to the influence of a syntactic processing initiated by the prime on the lexical selection of a name for the picture.\ud The experiments on the semantic aspects show a dissociation between semantics and verbal association in the production system. After being operationally distinguished, theses two kinds of relations showed very different priming patterns. Moreover, these priming effects were differently affected by time parameters. The results are interpreted in the context of models of lexical access during the production of isolated words
    • …
    corecore