31 research outputs found

    Analyse de l’image de marque sur le Web 2.0

    Get PDF
    Analyse of entities representation over the Web 2.0Every day, millions of people publish their views on Web 2.0 (social networks,blogs, etc.). These comments focus on subjects as diverse as news, politics,sports scores, consumer objects, etc. The accumulation and agglomerationof these notices on an entity (be it a product, a company or a public entity) givebirth to the brand image of that entity. Internet has become in recent years aprivileged place for the emergence and dissemination of opinions and puttingWeb 2.0 at the head of observatories of opinions. The latter being a means ofaccessing the knowledge of the opinion of the world population.The image is here understood as the idea that a person or a group of peopleis that entity. This idea carries a priori on a particular subject and is onlyvalid in context for a given time. This perceived image is different from theentity initially wanted to broadcast (eg via a communication campaign). Moreover,in reality, there are several images in the end living together in parallel onthe network, each specific to a community and all evolve differently over time(imagine how would be perceived in each camp together two politicians edgesopposite). Finally, in addition to the controversy caused by the voluntary behaviorof some entities to attract attention (think of the declarations required orshocking). It also happens that the dissemination of an image beyond the frameworkthat governed the and sometimes turns against the entity (for example,« marriage for all » became « the demonstration for all »). The views expressedthen are so many clues to understand the logic of construction and evolution ofthese images. The aim is to be able to know what we are talking about and howwe talk with filigree opportunity to know who is speaking.viiIn this thesis we propose to use several simple supervised statistical automaticmethods to monitor entity’s online reputation based on textual contentsmentioning it. More precisely we look the most important contents and theirsauthors (from a reputation manager point-of-view). We introduce an optimizationprocess allowing us to enrich the data using a simulated relevance feedback(without any human involvement). We also compare content contextualizationmethod using information retrieval and automatic summarization methods.Wealso propose a reflection and a new approach to model online reputation, improveand evaluate reputation monitoring methods using Partial Least SquaresPath Modelling (PLS-PM). In designing the system, we wanted to address localand global context of the reputation. That is to say the features can explain thedecision and the correlation betweens topics and reputation. The goal of ourwork was to propose a different way to combine usual methods and featuresthat may render reputation monitoring systems more accurate than the existingones. We evaluate and compare our systems using state of the art frameworks: Imagiweb and RepLab. The performances of our proposals are comparableto the state of the art. In addition, the fact that we provide reputation modelsmake our methods even more attractive for reputation manager or scientistsfrom various fields.Image sur le web : analyse de la dynamique des images sur le Web 2.0. En plus d’ĂȘtre un moyen d’accĂšs Ă  la connaissance, Internet est devenu en quelques annĂ©es un lieu privilĂ©giĂ© pour l’apparition et la diffusion d’opinions.Chaque jour, des millions d’individus publient leurs avis sur le Web 2.0 (rĂ©seaux sociaux, blogs, etc.). Ces commentaires portent sur des sujets aussi variĂ©s que l’actualitĂ©, la politique, les rĂ©sultats sportifs, biens culturels, des objets de consommation, etc. L’amoncellement et l’agglomĂ©ration de ces avis publiĂ©s sur une entitĂ© (qu’il s’agisse d’un produit, une entreprise ou une personnalitĂ© publique)donnent naissance Ă  l’image de marque de cette entitĂ©.L’image d’une entitĂ© est ici comprise comme l’idĂ©e qu’une personne ou qu’un groupe de personnes se fait de cette entitĂ©. Cette idĂ©e porte a priori sur un sujet particulier et n’est valable que dans un contexte, Ă  un instant donnĂ©.Cette image perçue est par nature diffĂ©rente de celle que l’entitĂ© souhaitait initialement diffuser (par exemple via une campagne de communication). De plus,dans la rĂ©alitĂ©, il existe au final plusieurs images qui cohabitent en parallĂšle sur le rĂ©seau, chacune propre Ă  une communautĂ© et toutes Ă©voluant diffĂ©remment au fil du temps (imaginons comment serait perçu dans chaque camp le rapprochement de deux hommes politiques de bords opposĂ©s). Enfin, en plus des polĂ©miques volontairement provoquĂ©es par le comportement de certaines entitĂ©s en vue d’attirer l’attention sur elles (pensons aux tenues ou dĂ©clarations choquantes), il arrive Ă©galement que la diffusion d’une image dĂ©passe le cadre qui la rĂ©gissait et mĂȘme parfois se retourne contre l’entitĂ© (par exemple, «le mariage pour tous» devenu « la manif pour tous »). Les opinions exprimĂ©es constituent alors autant d’indices permettant de comprendre la logique de construction et d’évolution de ces images. Ce travail d’analyse est jusqu’à prĂ©sent confiĂ© Ă  des spĂ©cialistes de l’e-communication qui monnaient leur subjectivitĂ©. Ces derniers ne peuvent considĂ©rer qu’un volume restreint d’information et ne sont que rarement d’accord entre eux. Dans cette thĂšse, nous proposons d’utiliser diffĂ©rentes mĂ©thodes automatiques, statistiques, supervisĂ©es et d’une faible complexitĂ© permettant d’analyser et reprĂ©senter l’image de marque d’entitĂ© Ă  partir de contenus textuels les mentionnant. Plus spĂ©cifiquement, nous cherchons Ă  identifier les contenus(ainsi que leurs auteurs) qui sont les plus prĂ©judiciables Ă  l’image de marque d’une entitĂ©. Nous introduisons un processus d’optimisation automatique de ces mĂ©thodes automatiques permettant d’enrichir les donnĂ©es en utilisant un retour de pertinence simulĂ© (sans qu’aucune action de la part de l’entitĂ© concernĂ©e ne soit nĂ©cessaire). Nous comparer Ă©galement plusieurs approches de contextualisation de messages courts Ă  partir de mĂ©thodes de recherche d’information et de rĂ©sumĂ© automatique. Nous tirons Ă©galement parti d’algorithmes de modĂ©lisation(tels que la RĂ©gression des moindres carrĂ©s partiels), dans le cadre d’une modĂ©lisation conceptuelle de l’image de marque, pour amĂ©liorer nos systĂšmes automatiques de catĂ©gorisation de documents textuels. Ces mĂ©thodes de modĂ©lisation et notamment les reprĂ©sentations des corrĂ©lations entre les diffĂ©rents concepts que nous manipulons nous permettent de reprĂ©senter d’une part, le contexte thĂ©matique d’une requĂȘte de l’entitĂ© et d’autre, le contexte gĂ©nĂ©ral de son image de marque. Nous expĂ©rimentons l’utilisation et la combinaison de diffĂ©rentes sources d’information gĂ©nĂ©rales reprĂ©sentant les grands types d’information auxquels nous sommes confrontĂ©s sur internet : de long les contenus objectifs rĂ©digĂ©s Ă  des informatives, les contenus brefs gĂ©nĂ©rĂ©s par les utilisateurs visant Ă  partager des opinions. Nous Ă©valuons nos approches en utilisant deux collections de donnĂ©es, la premiĂšre est celle constituĂ©e dans le cadre du projet Imagiweb, la seconde est la collection de rĂ©fĂ©rence sur le sujet : CLEFRepLa

    SystĂšme de recherche d’information Ă©tendue basĂ© sur une projection multi-espaces

    Get PDF
    Depuis son apparition au dĂ©but des annĂ©es 90, le World Wide Web (WWW ou Web) a offert un accĂšs universel aux connaissances et le monde de l’information a Ă©tĂ© principalement tĂ©moin d’une grande rĂ©volution (la rĂ©volution numĂ©rique). Il est devenu rapidement trĂšs populaire, ce qui a fait de lui la plus grande et vaste base de donnĂ©es et de connaissances existantes grĂące Ă  la quantitĂ© et la diversitĂ© des donnĂ©es qu'il contient. Cependant, l'augmentation et l’évolution considĂ©rables de ces donnĂ©es soulĂšvent d'importants problĂšmes pour les utilisateurs notamment pour l’accĂšs aux documents les plus pertinents Ă  leurs requĂȘtes de recherche. Afin de faire face Ă  cette explosion exponentielle du volume de donnĂ©es et faciliter leur accĂšs par les utilisateurs, diffĂ©rents modĂšles sont proposĂ©s par les systĂšmes de recherche d’information (SRIs) pour la reprĂ©sentation et la recherche des documents web. Les SRIs traditionnels utilisent, pour indexer et rĂ©cupĂ©rer ces documents, des mots-clĂ©s simples qui ne sont pas sĂ©mantiquement liĂ©s. Cela engendre des limites en termes de la pertinence et de la facilitĂ© d'exploration des rĂ©sultats. Pour surmonter ces limites, les techniques existantes enrichissent les documents en intĂ©grant des mots-clĂ©s externes provenant de diffĂ©rentes sources. Cependant, ces systĂšmes souffrent encore de limitations qui sont liĂ©es aux techniques d’exploitation de ces sources d’enrichissement. Lorsque les diffĂ©rentes sources sont utilisĂ©es de telle sorte qu’elles ne peuvent ĂȘtre distinguĂ©es par le systĂšme, cela limite la flexibilitĂ© des modĂšles d'exploration qui peuvent ĂȘtre appliquĂ©s aux rĂ©sultats de recherche retournĂ©s par ce systĂšme. Les utilisateurs se sentent alors perdus devant ces rĂ©sultats, et se retrouvent dans l'obligation de les filtrer manuellement pour sĂ©lectionner l'information pertinente. S’ils veulent aller plus loin, ils doivent reformuler et cibler encore plus leurs requĂȘtes de recherche jusqu'Ă  parvenir aux documents qui rĂ©pondent le mieux Ă  leurs attentes. De cette façon, mĂȘme si les systĂšmes parviennent Ă  retrouver davantage des rĂ©sultats pertinents, leur prĂ©sentation reste problĂ©matique. Afin de cibler la recherche Ă  des besoins d'information plus spĂ©cifiques de l'utilisateur et amĂ©liorer la pertinence et l’exploration de ses rĂ©sultats de recherche, les SRIs avancĂ©s adoptent diffĂ©rentes techniques de personnalisation de donnĂ©es qui supposent que la recherche actuelle d'un utilisateur est directement liĂ©e Ă  son profil et/ou Ă  ses expĂ©riences de navigation/recherche antĂ©rieures. Cependant, cette hypothĂšse ne tient pas dans tous les cas, les besoins de l’utilisateur Ă©voluent au fil du temps et peuvent s’éloigner de ses intĂ©rĂȘts antĂ©rieurs stockĂ©s dans son profil. Dans d’autres cas, le profil de l’utilisateur peut ĂȘtre mal exploitĂ© pour extraire ou infĂ©rer ses nouveaux besoins en information. Ce problĂšme est beaucoup plus accentuĂ© avec les requĂȘtes ambigĂŒes. Lorsque plusieurs centres d’intĂ©rĂȘt auxquels est liĂ©e une requĂȘte ambiguĂ« sont identifiĂ©s dans le profil de l’utilisateur, le systĂšme se voit incapable de sĂ©lectionner les donnĂ©es pertinentes depuis ce profil pour rĂ©pondre Ă  la requĂȘte. Ceci a un impact direct sur la qualitĂ© des rĂ©sultats fournis Ă  cet utilisateur. Afin de remĂ©dier Ă  quelques-unes de ces limitations, nous nous sommes intĂ©ressĂ©s dans ce cadre de cette thĂšse de recherche au dĂ©veloppement de techniques destinĂ©es principalement Ă  l'amĂ©lioration de la pertinence des rĂ©sultats des SRIs actuels et Ă  faciliter l'exploration de grandes collections de documents. Pour ce faire, nous proposons une solution basĂ©e sur un nouveau concept d'indexation et de recherche d'information appelĂ© la projection multi-espaces. Cette proposition repose sur l'exploitation de diffĂ©rentes catĂ©gories d'information sĂ©mantiques et sociales qui permettent d'enrichir l'univers de reprĂ©sentation des documents et des requĂȘtes de recherche en plusieurs dimensions d'interprĂ©tations. L’originalitĂ© de cette reprĂ©sentation est de pouvoir distinguer entre les diffĂ©rentes interprĂ©tations utilisĂ©es pour la description et la recherche des documents. Ceci donne une meilleure visibilitĂ© sur les rĂ©sultats retournĂ©s et aide Ă  apporter une meilleure flexibilitĂ© de recherche et d'exploration, en donnant Ă  l’utilisateur la possibilitĂ© de naviguer une ou plusieurs vues de donnĂ©es qui l’intĂ©ressent le plus. En outre, les univers multidimensionnels de reprĂ©sentation proposĂ©s pour la description des documents et l’interprĂ©tation des requĂȘtes de recherche aident Ă  amĂ©liorer la pertinence des rĂ©sultats de l’utilisateur en offrant une diversitĂ© de recherche/exploration qui aide Ă  rĂ©pondre Ă  ses diffĂ©rents besoins et Ă  ceux des autres diffĂ©rents utilisateurs. Cette Ă©tude exploite diffĂ©rents aspects liĂ©s Ă  la recherche personnalisĂ©e et vise Ă  rĂ©soudre les problĂšmes engendrĂ©s par l’évolution des besoins en information de l’utilisateur. Ainsi, lorsque le profil de cet utilisateur est utilisĂ© par notre systĂšme, une technique est proposĂ©e et employĂ©e pour identifier les intĂ©rĂȘts les plus reprĂ©sentatifs de ses besoins actuels dans son profil. Cette technique se base sur la combinaison de trois facteurs influents, notamment le facteur contextuel, frĂ©quentiel et temporel des donnĂ©es. La capacitĂ© des utilisateurs Ă  interagir, Ă  Ă©changer des idĂ©es et d’opinions, et Ă  former des rĂ©seaux sociaux sur le Web, a amenĂ© les systĂšmes Ă  s’intĂ©resser aux types d’interactions de ces utilisateurs, au niveau d’interaction entre eux ainsi qu’à leurs rĂŽles sociaux dans le systĂšme. Ces informations sociales sont abordĂ©es et intĂ©grĂ©es dans ce travail de recherche. L’impact et la maniĂšre de leur intĂ©gration dans le processus de RI sont Ă©tudiĂ©s pour amĂ©liorer la pertinence des rĂ©sultats. Since its appearance in the early 90's, the World Wide Web (WWW or Web) has provided universal access to knowledge and the world of information has been primarily witness to a great revolution (the digital revolution). It quickly became very popular, making it the largest and most comprehensive database and knowledge base thanks to the amount and diversity of data it contains. However, the considerable increase and evolution of these data raises important problems for users, in particular for accessing the documents most relevant to their search queries. In order to cope with this exponential explosion of data volume and facilitate their access by users, various models are offered by information retrieval systems (IRS) for the representation and retrieval of web documents. Traditional SRIs use simple keywords that are not semantically linked to index and retrieve these documents. This creates limitations in terms of the relevance and ease of exploration of results. To overcome these limitations, existing techniques enrich documents by integrating external keywords from different sources. However, these systems still suffer from limitations that are related to the exploitation techniques of these sources of enrichment. When the different sources are used so that they cannot be distinguished by the system, this limits the flexibility of the exploration models that can be applied to the results returned by this system. Users then feel lost to these results, and find themselves forced to filter them manually to select the relevant information. If they want to go further, they must reformulate and target their search queries even more until they reach the documents that best meet their expectations. In this way, even if the systems manage to find more relevant results, their presentation remains problematic. In order to target research to more user-specific information needs and improve the relevance and exploration of its research findings, advanced SRIs adopt different data personalization techniques that assume that current research of user is directly related to his profile and / or previous browsing / search experiences. However, this assumption does not hold in all cases, the needs of the user evolve over time and can move away from his previous interests stored in his profile. In other cases, the user's profile may be misused to extract or infer new information needs. This problem is much more accentuated with ambiguous queries. When multiple POIs linked to a search query are identified in the user's profile, the system is unable to select the relevant data from that profile to respond to that request. This has a direct impact on the quality of the results provided to this user. In order to overcome some of these limitations, in this research thesis, we have been interested in the development of techniques aimed mainly at improving the relevance of the results of current SRIs and facilitating the exploration of major collections of documents. To do this, we propose a solution based on a new concept and model of indexing and information retrieval called multi-spaces projection. This proposal is based on the exploitation of different categories of semantic and social information that enrich the universe of document representation and search queries in several dimensions of interpretations. The originality of this representation is to be able to distinguish between the different interpretations used for the description and the search for documents. This gives a better visibility on the results returned and helps to provide a greater flexibility of search and exploration, giving the user the ability to navigate one or more views of data that interest him the most. In addition, the proposed multidimensional representation universes for document description and search query interpretation help to improve the relevance of the user's results by providing a diversity of research / exploration that helps meet his diverse needs and those of other different users. This study exploits different aspects that are related to the personalized search and aims to solve the problems caused by the evolution of the information needs of the user. Thus, when the profile of this user is used by our system, a technique is proposed and used to identify the interests most representative of his current needs in his profile. This technique is based on the combination of three influential factors, including the contextual, frequency and temporal factor of the data. The ability of users to interact, exchange ideas and opinions, and form social networks on the Web, has led systems to focus on the types of interactions these users have at the level of interaction between them as well as their social roles in the system. This social information is discussed and integrated into this research work. The impact and how they are integrated into the IR process are studied to improve the relevance of the results

    La classification à facettes pour la gestion des connaissances métier (méthodologie d'élaboration de FolkClassifications à facettes.)

    Get PDF
    Tout d abord, nous abordons les problématiques liées à l organisation et à la gestion des connaissances ainsi que les principes présidant à l élaboration des classifications à facettes. Nous proposons ensuite une synthÚse des méthodes existantes d élaboration de classifications à facettes. Nous poursuivons en réalisant une analyse de l impact des types de SystÚmes d Information sur l activité de gestion de l information. Ce faisant, nous produisons une analyse de l activité inspirée de la Théorie de l Activité, et influencée par les travaux de la psychologie du travail et de l ergonomie cognitive. Le prototype Hypertagging développé dans le cadre du projet Miipa-Doc fondé sur le tagging des utilisateurs et structuré par les principes de la classification à facettes est présenté. Notre expérimentation sur l élaboration de classifications à facettes pour la gestion des documents de travail est détaillée. Enfin, nous exposons notre méthodologie d élaboration de FolkClassifications à facettes pour la gestion des connaissances métier. Elle vise à appuyer une démarche de gestion des connaissances sur la gestion personnelle de l informationWe address Knowledge Organization and Knowldege Management general issues and we present the basic principles for the development of faceted classifications. Then we introduce a synthesis of existing methods to develop this kind of classification. Next we propose an analysis of effects of Information Systems on information management activities. By doing this, we produce an analysis of the concept of activity inspired by Activity Theory, occupational psychology and french ergonomics. A presentation of Hypertagging prototype developed in the frame of Miipa-Doc research project, based on users tagging and structured by faceted classification principles, is provided. Our experiment about generating faceted classification for document management activities is detailed. Finally, we expose our method for the development of faceted classification for Knowledge Management purposes in the context of specific trades. This Knowledge Management approach is incorporated in Knowledge Organization activities.PARIS-CNAM (751032301) / SudocSudocFranceF

    Gestion dynamique d'ontologies Ă  partir de textes par systĂšmes multi-agents adaptatifs

    Get PDF
    Une ontologie est une représentation structurée des connaissances d'un domaine sous la forme d'un réseau conceptuel. Les ontologies sont considérées comme un support indispensable à la communication entre agents logiciels, à l'annotation des sites Web et des ressources documentaires dans une optique de recherche sémantique de l'information. Parce que les connaissances d'un domaine sont amenées à évoluer, une ontologie doit elle aussi évoluer pour rester en cohérence avec le domaine qu'elle modélise. Actuellement, la plupart des travaux traitant de l'évolution d'ontologies se préoccupent de la vérification et du maintien de la cohérence de l'ontologie modifiée. Ces travaux n'apportent pas de solutions concrÚtes à l'identification de nouvelles connaissances et à leur intégration dans une ontologie. Les travaux en ingénierie d'ontologies à partir de textes quant à eux traitent ce problÚme d'évolution comme un problÚme de reconstruction d'une nouvelle ontologie. Souvent, le résultat produit est complÚtement différent de l'ontologie à modifier. Par ailleurs, les logiciels d'évolution spécifiques à un domaine particulier rendent impossible leur utilisation dans d'autres domaines. Cette thÚse propose une solution originale basée sur les systÚmes multi-agents adaptatifs (AMAS) pour faire évoluer des ontologies à partir de textes. Chaque terme et concept sont représentés par un agent qui essaie de se situer au bon endroit dans l'organisation qui n'est autre que l'ontologie. Ce travail est concrétisé par un outil nommé DYNAMO. Un besoin d'évolution est déclenché par l'ajout de nouveaux textes dans un corpus de documents. DYNAMO utilise les résultats d'un extracteur de termes et de relations lexicales ainsi qu'un AMAS, nommé DYNAMO MAS, pour proposer une ontologie modifiée à un ontographe. Ce dernier interagit avec DYNAMO MAS via une interface graphique en modifiant l'ontologie proposée (déplacement, ajout, modification de concepts, de termes et/ou de relations), produisant ainsi des contraintes auxquelles l'AMAS doit s'adapter. Cette "coévolution" entre l'AMAS et l'ontographe cesse lorsque l'ontographe juge que l'ontologie modifiée est cohérente avec le nouveau corpus.An ontology is a structured representation of domain knowledge based on a conceptual network. Ontologies are considered as an essential support for the communication between software agents, the annotation of Web sites and textual resources to carry out semantic information retieval. Because domain knowledge can evolve, an ontology must also evolve to remain consistent with the domain that it models. Currently, studies on ontologies evolution are focusing on checking and maintaining the consistency of the evolved ontology. These works do not provide concrete solutions to the identification of new knowledge and its integration into an ontology. Ontology engineering from texts considers evolution as a problem of ontology reconstruction. The result produced by this kind of software is often completely different from the initial ontology. Moreover, it is almost impossible to reuse software designed only for a particular domain. This PhD thesis proposes an original solution based on adaptive multi-agent systems (AMAS) to evolve ontologies from texts. Each term and each concept are agentified and try to find its own right place in the AMAS organization that is the ontology. This work is implemented in a software called DYNAMO. An ontology evolution requirement is triggered by the addition of new texts in a corpus of documents. DYNAMO uses the results of a term extractor and a lexical relation extractor. These results are the input data of an AMAS, called DYNAMO MAS, that evolves an ontology and proposes it to an ontologist. Then, the ontologist interacts with DYNAMO MAS via a graphical interface by modifying the proposed ontology (moving, addition, suppression of concepts, terms and / or relationships). The ontologist's actions are feedback used by the AMAS to adapt the evolved ontology. This "coevolution" process between the AMAS and the ontologist ends when the ontologist judges that the modified ontology is consistent with the new corpus

    Représentation multi-facette des documents pour leur accÚs sémantique

    Get PDF
    La recherche d'information (RI) est un domaine prĂ©pondĂ©rant dans la vie contemporaine car elle permet de disposer d'Ă©lĂ©ments d'informations qui permettent d'agir et de prendre des dĂ©cisions face Ă  une situation donnĂ©e. En effet, l'objectif d'une RI est de s'informer, d'apprendre de nouvelles notions que nous ne maĂźtrisons pas. La disponibilitĂ© et la pertinence de ces nouvelles informations ont donc une trĂšs grande influence sur la prise de dĂ©cision. La plupart des moteurs de recherche actuels utilisent des index regroupant les mots reprĂ©sentatifs des documents afin de permettre leur recherche ultĂ©rieure. Dans ces mĂ©thodes, les documents et les requĂȘtes sont considĂ©rĂ©es comme des sacs de mots, non porteurs de sens. L'une des mĂ©thodes innovantes actuelles est l'indexation et la recherche sĂ©mantique des documents. Il s'agit de mieux prendre en compte le besoin de l'utilisateur en considĂ©rant la sĂ©mantique des Ă©lĂ©ments textuels. Nous nous intĂ©ressons Ă  cet aspect de la RI en considĂ©rant une indexation et une recherche Ă  base d'ontologies de domaine. Les solutions que nous proposons visent Ă  amĂ©liorer la pertinence des rĂ©ponses d'un systĂšme par rapport au thĂšme de la recherche. Le discours contenu dans un document ou dans une requĂȘte ne sont pas les seuls Ă©lĂ©ments Ă  prendre en compte pour espĂ©rer mieux satisfaire l'utilisateur. D'autres Ă©lĂ©ments relatifs au contexte de sa recherche doivent aussi ĂȘtre pris en compte. La granularitĂ© des informations Ă  restituer Ă  l'utilisateur est un autre aspect. Nous nous sommes intĂ©ressĂ©s Ă  ces diffĂ©rents aspects et avons dĂ©veloppĂ© un mĂ©ta-modĂšle de reprĂ©sentation multi-facette des documents en vue de leur accĂšs sĂ©mantique. Dans notre modĂšle, le document est vu selon diffĂ©rentes dimensions dont la structure logique, la structure physique, la sĂ©mantique des contenus ainsi que leurs Ă©volutions dans le temps. Nous avons Ă©galement proposĂ© des mesures de similaritĂ© sĂ©mantique entre concepts et une fonction de similaritĂ© entre les graphes d'annotation des requĂȘtes et ceux des documents. Pour Ă©valuer et valider nos solutions, nous avons instanciĂ© ce modĂšle dans trois domaines distincts : l'apprentissage en ligne, la maintenance automobile et les partitions musicales Braille. Nous avons Ă©galement Ă©valuĂ© les rĂ©sultats en termes de rappel/prĂ©cision des fonctions que nous avons proposĂ©es et montrĂ© leur supĂ©rioritĂ© par rapport Ă  l'Ă©tat de l'art.Information retrieval is part of our contemporary life because it helps us to find information which helps us in acting and decision making. Indeed, the objective of any information retrieval task is to learn new facts, new notions. Thus, the availability and relevance of the pieces of new information we access have a high influence on decisions we make. Most of the current search engines use indexes composed of the representative words from the documents; these indexes allow their access when compared to users' queries. These techniques consider documents and queries as bags of words but not the discourse they contain. One of the new methods to face the understanding of user's needs is semantic indexing and retrieval. In this thesis, we consider semantic indexing when based on ontologies that gather the domain knowledge. Matching content is not the only aspects that interest the user when searching for information. We consider other aspects such as the granularity of the elements to retrieve, the meta-data that can be associated with contents and the context in which the search is made. We consider these different aspects and propose a generic model based on a multi-facet representation. The facet related to document content is deeply studied. We made proposition related to semantic retrieval based on graph concepts and suggested a family of concept similarity functions and a graph similarity function that allow to compare graph concepts from documents and from queries. The dynamic aspect of the document collection has also been studied. To validate this model we considered three application domains: e-learning, automobile diagnostic and Braille musical scores. We also evaluate our semantic similarity functions in terms of recall and precision and show their effectiveness

    Modélisation de connaissances à partir de textes pour une recherche d'information sémantique

    Get PDF
    Avec l'avĂšnement d'Internet et des rĂ©seaux d'entreprise, les documents numĂ©riques ont subi de profondes transformations, tant dans la diversification de leur support (texte, image, son, vidĂ©o), que dans la forte augmentation de leur nombre accessible informatiquement. La Recherche d'Information (RI) a alors pris une importance capitale : l'utilisateur en quĂȘte de donnĂ©es rĂ©pondant Ă  ses besoins veut disposer de logiciels capables d'exploiter les contenus textuels et de trouver automatiquement tout document pertinent pour la requĂȘte. Pour comparer selon leur sens requĂȘte et documents, la RI sĂ©mantique nĂ©cessite deux opĂ©rations prĂ©alables : l'obtention d'un modĂšle des connaissances manipulĂ©es et, grĂące Ă  lui, l'indexation sĂ©mantique des donnĂ©es textuelles. Dans ce mĂ©moire, nous Ă©tudions les modĂšles de Ressources Termino-Ontologiques (RTO) adaptĂ©s Ă  la RI et dĂ©veloppons un formalisme qui, contrairement aux approches classiques, dĂ©crit explicitement la relation entre termes du lexique et concepts de l'ontologie, tout en respectant le standard OWL-DL. Nous abordons ensuite la problĂ©matique de maintenance d'une RTO pour la RI : quand un domaine Ă©volue dans le temps, sa RTO correspondante doit ĂȘtre modifiĂ©e en consĂ©quence. L'originalitĂ© de notre approche rĂ©side dans la mise en parallĂšle entre maintenance de RTO et indexation sĂ©mantique : l'ontographe dĂ©finit des rĂšgles Ă©valuant automatiquement la correction de la RTO en fonction des rĂ©sultats d'indexation attendus ; appliquĂ©es aux documents Ă  indexer, ces rĂšgles aident Ă  repĂ©rer ceux qui tĂ©moignent de la nĂ©cessitĂ© de maintenance. L'outil prĂ©sente alors ces documents avec des conseils de modification. Notre derniĂšre contribution inclut notre formalisme de RTO et le cycle de maintenance au sein d'un processus global de RI sĂ©mantique. Nous nous intĂ©ressons notamment Ă  la comparaison sĂ©mantique d'un document Ă  une requĂȘte en langue naturelle. Nous proposons une mesure de similaritĂ© tenant compte de la proximitĂ© taxonomique de deux notions, ainsi que de la maniĂšre dont chacune est reliĂ©e sĂ©mantiquement Ă  d'autres Ă©lĂ©ments. La pertinence de nos contributions a Ă©tĂ© principalement mise Ă  l'Ă©preuve par la rĂ©alisation et l'utilisation d'un prototype d'outil pour la RI sĂ©mantique dans le cadre d'un partenariat avec Actia, une sociĂ©tĂ© spĂ©cialiste du diagnostic automobile.With the spreading of Internet and local networks, numerical documents have been undergoing deep mutations, mainly due to the diversification of supports (text, image, sound, video) and their high number accessible by computers. Information Retrieval (IR) has thus become crucial: any user of a search engine wants it to be able to process textual contents to find automatically all documents relevant for their query. In order to compare a query with a document, semantic IR needs two prior operations to be carried out: obtaining a model for the handled knowledge and using it to index semantically the textual data. In this thesis, we study Ontological and Terminological Resources (OTR) adapted for IR and we develop a formalism which, unlike classical approaches, explicitly describes the relationship between terms and concepts, while respecting OWL-DL standard. Afterwards, we broach the topic of maintaining an OTR for IR: when a domain evolves in time, its corresponding OTR must be modified accordingly. The originality of our approach lies in the parallel computing of OTR maintenance and semantic indexing: the engineer can define rules which evaluate automatically the correctness of the OTR with respect to the expected indexing results; applied to the documents to be indexed, these rules help to spot the ones which show the necessity of maintaining the OTR. The tool then displays these documents with evolution advice. Our last contribution consists in integrating our OTR formalism and the maintenance cycle into a global semantic IR process. We especially focus on the semantic matching between a document and a keyword based query. We propose a semantic similarity measure which takes into account both the taxonomical proximity of two notions and the way each one is semantically connected to other entities. The relevance of our contributions was mainly tested by the implementation and use of a prototype tool for semantic IR as part of a partnership with ACTIA, a company specialized in automotive diagnosi

    Contribution à la définition de modÚles de recherche d'information flexibles basés sur les CP-Nets

    Get PDF
    This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thĂšse adresse deux principaux problĂšmes en recherche d'information : (1) la formalisation automatique des prĂ©fĂ©rences utilisateur, (ou la pondĂ©ration automatique de requĂȘtes) et (2) l'indexation sĂ©mantique. Dans notre premiĂšre contribution, nous proposons une approche de recherche d'information (RI) flexible fondĂ©e sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisĂ© d'une part, pour la reprĂ©sentation graphique de requĂȘtes flexibles exprimant des prĂ©fĂ©rences qualitatives et d'autre part pour l'Ă©valuation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de prĂ©fĂ©rences qualitatives est plus simple et plus intuitive que la formulation de poids numĂ©riques les quantifiant. Cependant, un systĂšme automatisĂ© raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondĂ©ration automatique des requĂȘtes par quantification des CP-Nets correspondants par des valeurs d'utilitĂ©. Cette quantification conduit Ă  un UCP-Net qui correspond Ă  une requĂȘte boolĂ©enne pondĂ©rĂ©e. Une utilisation des CP-Nets est Ă©galement proposĂ©e pour la reprĂ©sentation des documents dans la perspective d'une Ă©valuation flexible des requĂȘtes ainsi pondĂ©reĂ©s. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basĂ©e sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de reprĂ©senter les concepts et les relations conditionnelles entre eux d'une maniĂšre relativement compacte. Les noeuds du CP-Net sont les concepts reprĂ©sentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts rĂ©sultants forment les noeuds du CP-Net. D'autre part, nous proposons d'Ă©tendre et d'utiliser la technique de rĂšgles d'association afin de dĂ©couvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mĂ©canisme d'Ă©valuation des requĂȘtes basĂ© sur l'appariement de graphes (les CP-Nets document et requĂȘte en l'occurrence)
    corecore