28 research outputs found

    Approche exploratoire sur la classification appliquée aux images

    Get PDF

    Identification d'indicateurs stratégiques dans les documents

    Get PDF

    Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets

    Get PDF
    This thesis addresses two main problems in IR: automatic query weighting and document semantic indexing. Our global contribution consists on the definition of a theoretical flexible information retrieval (IR) model based on CP-Nets. The CP-Net formalism is used for the graphical representation of flexible queries expressing qualitative preferences and for automatic weighting of such queries. Furthermore, the CP-Net formalism is used as an indexing language in order to represent document representative concepts and related relations in a roughly compact way. Concepts are identified by projection on WordNet. Concept relations are discovered by means of semantic association rules. A query evaluation mechanism based on CP-Nets graph similarity is also proposed.Ce travail de thèse adresse deux principaux problèmes en recherche d'information : (1) la formalisation automatique des préférences utilisateur, (ou la pondération automatique de requêtes) et (2) l'indexation sémantique. Dans notre première contribution, nous proposons une approche de recherche d'information (RI) flexible fondée sur l'utilisation des CP-Nets (Conditional Preferences Networks). Le formalisme CP-Net est utilisé d'une part, pour la représentation graphique de requêtes flexibles exprimant des préférences qualitatives et d'autre part pour l'évaluation flexible de la pertinence des documents. Pour l'utilisateur, l'expression de préférences qualitatives est plus simple et plus intuitive que la formulation de poids numériques les quantifiant. Cependant, un système automatisé raisonnerait plus simplement sur des poids ordinaux. Nous proposons alors une approche de pondération automatique des requêtes par quantification des CP-Nets correspondants par des valeurs d'utilité. Cette quantification conduit à un UCP-Net qui correspond à une requête booléenne pondérée. Une utilisation des CP-Nets est également proposée pour la représentation des documents dans la perspective d'une évaluation flexible des requêtes ainsi pondéreés. Dans notre seconde contribution, nous proposons une approche d'indexation conceptuelle basée sur les CP-Nets. Nous proposons d'utiliser le formalisme CP-Net comme langage d'indexation afin de représenter les concepts et les relations conditionnelles entre eux d'une manière relativement compacte. Les noeuds du CP-Net sont les concepts représentatifs du contenu du document et les relations entre ces noeuds expriment les associations conditionnelles qui les lient. Notre contribution porte sur un double aspect : d'une part, nous proposons une approche d'extraction des concepts en utilisant WordNet. Les concepts résultants forment les noeuds du CP-Net. D'autre part, nous proposons d'étendre et d'utiliser la technique de règles d'association afin de découvrir les relations conditionnelles entre les concepts noeuds du CP-Nets. Nous proposons enfin un mécanisme d'évaluation des requêtes basé sur l'appariement de graphes (les CP-Nets document et requête en l'occurrence)

    Interopérabilité des éléments de métadonnées : vers une approche sémantique

    Get PDF
    Dans le contexte aussi ouvert et évolutif que celui du Web, les ressources à décrire se sont diversifiées créant ainsi de nouveaux besoins de description auxquels un schéma générique tel que le Dublin Core ne pouvait répondre. De nombreux schémas de métadonnées ont été ainsi développés, le plus souvent sans aucune concertation; les concepteurs étant généralement guidés par la nécessité de répondre à des objectifs spécifiques de leurs communautés respectives. Cette prolifération des schémas est à l'origine de plusieurs problèmes, notamment celui de l'interopérabilité des éléments de métadonnées. L'interopérabilité des métadonnées peut être considérée selon deux niveaux: syntaxique et sémantique. Le niveau syntaxique porte sur la structure des messages échangés et vise à garantir la cohérence dans la manière dont les informations échangées sont représentées. C'est ici qu'entre en jeu le langage XML qui fournit un format de données standard pour permettre l'échange de données entres systèmes hétérogènes. Le niveau sémantique porte sur la signification des messages. Son rôle est de s'assurer que les échanges qui s'effectuent conservent leur sens afin que les parties communicantes aient une compréhension commune de la signification des données qu'elles s'échangent. L'interopérabilité sémantique est actuellement considérée comme le problème le plus important qui affecte la qualité de la recherche et de l'échange d'information. La solution à ce problème d'interopérabilité des métadonnées repose sur une approche centrée sur les communautés d'intérêt. En effet, les niveaux de difficulté et les défis à relever sont d'autant plus grands que l'on s'éloigne d'une communauté spécifique donnée et les coûts pour atteindre l'interopérabilité augmentent sans que la qualité des résultats soit garantie. Par contre, au sein d'un même domaine de connaissances ou d'une même communauté, l'homogénéité si relative soit-elle, réduit le taille des obstacles à surmonter et rend l'interopérabilité sémantique tout à fait réalisable. Plusieurs techniques ont été proposées afin d'assurer l'interopérabilité des métadonnées. Le mapping est la technique la plus utilisée. Néanmoins, ce processus est extrêmement coûteux surtout lorsque le nombre de schémas devient important et il est peu efficace pour résoudre des problèmes de sémantique puisque, dans la plupart des cas, une intervention humaine est requise. La véritable solution au problème d'interopérabilité des métadonnées s'appuie sur les technologies du Web sémantique et plus particulièrement sur RDF et les ontologies. Malheureusement, le déploiement de ces technologies s'est avéré fort limité du fait de leur complexité et il faut recourir à des solutions transitoires telles que les microformats ou les annotations RDF incorporées (RDFa). Comme les microformats n'offrent pas l'extensibilité et le niveau d'expressivité essentielle à l'interopérabilité, RDFa a été privilégié et est devenu une recommandation du W3C. Cette approche a été testée en prenant comme exemple la future norme ISO/IEC 19788, le Metadata for Learning Resources (MLR). L'utilisation de RDFa permet de distribuer dans le Web sémantique des notices MLR centralisés dans un référentiel de ressources d'enseignement et d'apprentissage. RDFa permet également de répondre aux attentes du Web 2.0 pour la contribution distribuée à l'indexation des ressources en utilisant les étiquettes MLR. Cette approche permet d'ores et déjà de contribuer à la mise en oeuvre du Web sémantique mais la simplicité de cette solution n'élimine pas, en définitive, la nécessité de passer un jour aux ontologies et au langage OWL lesquels offrent une solution générique d'interopérabilité des métadonnées. Le besoin d'outils faciles à utiliser reste un défi de taille pour la recherche sur le Web sémantique d'autant plus que l'indexation des ressources sera de plus en plus un processus distribué

    Problématique de la veille informationnelle en contexte interculturel : étude de cas d'un processus d'identification d'experts vietnamiens

    Get PDF
    Nom anglais de la conférence : 1st. International Symposium ISKO-Maghreb'2011 - "Concepts and Tools for Knowledge Management (KM)"International audienceThe topics of this research cover all phases of expert identification process in a context of information monitoring. Identify scientists for technological expertise is relatively easy through infometric analysis. However, lots of scientists residing in developing countries still remains a challenge. How to proceed then since the largest part of them does not appear in bibliographic databases ? This question raises two problematics : firstly, how a firm has the necessity to find such experts and what is the utility of this ? Secondly, cross-cultural factor must be taken into account and represents a key of success to integrate foreign experts from developing countries into internal expertise teams of the firm. We take the case of Vietnamese experts as example, pointing out cultural characteristic features and difficulties we encountered relating to language and data treatment. We propose a computer treatment of a database, using Natural Language processing to identify experts and get a visual rendering of experts localization. A corollary aspect of our approach is to redefine the role and the responsabilities of information watcher regarding a cross-cultural environment

    De nouveaux facteurs pour l'exploitation de la sémantique d'un texte en recherche d'information

    Get PDF
    Les travaux présentés dans ce mémoire se situent dans le contexte de la recherche d'information. Plus précisément, nous proposons de nouveaux facteurs " centralité, fréquence conceptuelle" permettant à notre sens, de mieux caractériser la dimension sémantique du contenu des textes, allant au-delà des méthodes d'indexation classiques basées exclusivement sur les statistiques. Ces facteurs devraient tirer parti de l'identification de différents types de relations telles que -est-une partie-de, liés à, synonymie, domaine, etc.- qui existent entre les mots d'un texte. L'approche que nous avons proposée pour calculer la valeur de nos facteurs est bâtie en trois étapes : (1) Extraction des concepts issus de WordNet1 associés aux termes du document puis désambigüisation de leurs sens, (2) Regroupement des concepts pour former des clusters de concepts (Ces étapes construisent la vue sémantique des documents), (3) A l'intérieur de chaque cluster, chaque terme possède un degré de " centralité ", fonction du nombre de mots du cluster avec lequel il est en relation directe, et une " fréquence conceptuelle " estimée par la somme des fréquences de ces mots. D'une part, nous menons une étude sur des méthodes potentielles basées sur les facteurs proposés pour extraire des vues sémantiques du contenu des textes. L'objectif est de construire des structures de graphes/hiérarchies offrant une vue du contenu sémantique des documents. Ensuite, ces vues seront élaborées à partir de nos nouveaux facteurs, mais aussi de l'utilisation des fréquences d'occurrence, et de la prise en compte de l'importance des mots (en particulier en terme de leur spécificité). Le poids relatif des vues partielles, la fréquence et la spécificité de leurs composants sont d'autant des indications qui devraient permettre d'identifier et de construire des sous-ensembles hiérarchisés de mots (présents dans le texte ou sémantiquement associés à des mots du texte), et de refléter les concepts présents dans le contenu du texte. L'obtention d'une meilleure représentation du contenu sémantique des textes aidera à mieux retrouver les textes pertinents pour une requête donnée, et à donner une vue synthétisée du contenu des textes proposés à l'utilisateur en réponse à sa requête. D'autre part, nous proposons une technique de désambiguïsation du concept basée sur la centralité. En fait, le sens d'un terme est ambigu, il dépend de son contexte d'emploi. Dans notre proposition, nous utilisons l'ontologie de WordNet, qui est précise dans la couverture des sens de termes, où un terme peut être attaché à plusieurs concepts. La méthode proposée consiste à trouver le meilleur concept WordNet permettant de représenter le sens du terme désigné par le texte. Le concept choisi est celui qui a un maximum de relations avec les termes du document, autrement dit, celui qui a une valeur maximale de centralité. L'utilisation d'une méthode de désambiguïsation est une étape inévitable dans une indexation conceptuelle, elle permet de mieux représenter le contenu sémantique d'un document. Enfin, nous utilisons nos facteurs dans le cadre de Recherche d'Information comme de nouveaux facteurs pour mesurer la pertinence d'un document vis-à-vis d'une requête (tâche de RI ad-hoc). L'utilisation de nos facteurs sémantiques est intéressante dans la RI, où nous estimons un degré de relativité entre les termes d'une requête et ceux d'un document indépendamment de leur présence dans ce dernier. Dans ce cadre, nous avons proposé une nouvelle fonction de pondération basée sur la centralité, ainsi que nous avons intégré les nouveaux facteurs à des fonctions connues. Dans les différentes expérimentations menées, nous avons montré que l'intégration de nos facteurs sémantiques ramène une amélioration au niveau de précision dans un moteur de recherche d'information. Tâche prometteuse pour une recherche plus ciblée et plus efficace.The work presented in this paper are in the context of information retrieval. Specifically, we propose new factors "centrality frequebcy conceptual" to our senses, to better characterize the semantic dimension of the text content, going beyond traditional indexing methods based solely on statistics. Theses factors should benefit from the identification of different typesif relationships sich as is-part-of, relating to, synonymy, domain, etc. -between tha words of text

    Impact des variations morphologiques sur la recherche d'information sur le Web

    Get PDF
    Notre travail de recherche est de type exploratoire. Il traite de l'apport des connaissances linguistiques à la recherche d'information sur le Web. Plus spécifiquement, nous avons étudié l'impact des variations morphologiques, notamment les variantes dérivées, en termes de fréquence, sur la pertinence des documents rapportés. À ce sujet, nous avons vérifié s'il y a une corrélation entre la fréquence des termes et des variantes morphologiques extraits des documents rapportés et la pertinence de ces mêmes documents. Les résultats obtenus n'ont pas permis de confirmer, d'une façon évidente, cette corrélation. En d'autres termes, si les données brutes laissent croire que, globalement, il y a une corrélation entre la fréquence des variables et la pertinence des documents, ce n'est pas le cas après l'examen des requêtes d'une façon individuelle, et, aussi, après l'application du test statistique de Jonckheere-Terpstra. En somme, la présence ou non d'une telle corrélation dépend, en partie, de la requête, des mots de la requête, de la nature et de la qualité des variantes. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Recherche d'information, Connaissances linguistiques, Variations morphologiques, Reformulation de requêtes, Traitement automatique des langues, Web
    corecore