420 research outputs found

    AGEWEB : les agents personnels d'aide à la recherche documentaire sur le Web

    Get PDF

    Diversité et recommandation : une investigation sur l’apport de la fouille d’opinions pour la distinction d’articles d’opinion dans une controverse médiatique

    Full text link
    Les plateformes de consultation d’articles de presse en format numérique comme Google Actualités et Yahoo! Actualités sont devenues de plus en plus populaires pour la recherche et la lecture de l’information journalistique en ligne. Dans le but d’aider les usagers à s’orienter parmi la multitude de sources d’information, ces plateformes intègrent à leurs moteurs de recherche des mécanismes de filtrage automatisés, connus comme systèmes de recommandation. Ceux-ci aident les usagers à retrouver des ressources informationnelles qui correspondent davantage à leurs intérêts et goûts personnels, en prenant comme base des comportements antérieurs, par exemple, l’historique de documents consultés. Cependant, ces systèmes peuvent nuire à la diversité d’idées et de perspectives politiques dans l’environnement informationnel qu’ils créent : la génération de résultats de recherche ou de recommandations excessivement spécialisées, surtout dans le contexte de la presse en ligne, pourrait cacher des idées qui sont importantes dans un débat. Quand l’environnement informationnel est insuffisamment divers, il y a un manque d’opportunité pour produire l’enquête ouverte, le dialogique et le désaccord constructif, ce qui peut résulter dans l’émergence d’opinions extrémistes et la dégradation générale du débat. Les travaux du domaine de l’intelligence artificielle qui tentent de répondre au problème de la diversité dans les systèmes de recommandation d’articles de presse sont confrontés par plusieurs questions, dont la représentation de textes numériques dans le modèle vectoriel à partir d’un ensemble de mots statistiquement discriminants dans ces textes, ainsi que le développement d’une mesure statistique capable de maximiser la différence entre des articles similaires qui sont retournés lors d’un processus de recommandation à un usager. Un courant de recherche propose des systèmes de recommandation basés sur des techniques de fouille d’opinions afin de détecter de manière automatique la différence d’opinions entre des articles de presse qui traitent d’un même thème lors du processus de recommandation. Dans cette approche, la représentation des textes numériques se fait par un ensemble de mots qui peuvent être associés, dans les textes, à l’expression d’opinions, comme les adjectifs et les émotions. Néanmoins, ces techniques s’avèrent moins efficaces pour détecter les différences entre les opinions relatives à un débat public argumenté, puisque l’expression de l’opinion dans les discussions politiques n’est pas nécessairement liée à l’expression de la subjectivité ou des émotions du journaliste. Notre recherche doctorale s’inscrit dans l’objectif de (1) systématiser et de valider une méthodologie de fouille d’opinions permettant d’assister l’identification d’opinions divergentes dans le cadre d’une controverse et (2) d’explorer l’applicabilité de cette méthodologie pour un système de recommandation d’articles de presse. Nous assimilons la controverse à un type de débat d’opinions dans la presse, dont la particularité est la formation de camps explicitement opposés quant à la façon de voir et de comprendre une question d’importance pour la collectivité. Notre recherche apporte des questionnements sur la définition d’opinion dans ce contexte précis et discute la pertinence d’exploiter les théories discursives et énonciatives dans les recherches de fouille d’opinions. Le corpus expérimental est composé par 495 articles d’opinion publiés dans la presse au sujet de la mobilisation étudiante du Québec en 2012 contre la hausse de droits de scolarité annoncée par le gouvernement de Jean Charest. Ils ont été classés dans deux catégories, ETUD et GOUV, en fonction du type d’opinion qu’ils véhiculent. Soit ils sont favorables aux étudiants et à la continuité de la grève soit favorables au gouvernement et critiques envers le mouvement de grève. Sur le plan méthodologique, notre recherche se base sur la démarche proposée par les travaux qui explorent des techniques du champ de la linguistique du corpus dans la fouille d’opinions, ainsi que les concepts de la sémantique interprétative de François Rastier. Elle systématise les étapes de cette démarche, en préconisant la description des textes du corpus, pour relever et interpréter les mots spécifiques qui contrastent les types d’opinions qui devront être classés. Ce travail permet de sélectionner des critères textuels interprétables et descriptifs des phénomènes énonciatifs étudiés dans le corpus qui serviront à représenter les textes numériques dans le format vectoriel. La démarche proposée par ces travaux a été validée avec l’utilisation du corpus de presse constitué pour l’expérimentation. Les résultats démontrent que la sélection de 447 critères textuels par une approche interprétative du corpus est plus performante pour la classification automatique des articles que le choix d’un ensemble de mots dont la sélection ne prend pas en compte de facteurs linguistiques liés au corpus. Notre recherche a également évalué la possibilité d’une application dans les systèmes de recommandation d’articles de presse, en faisant une étude sur l’évolution chronologique du vocabulaire du corpus de l’expérimentation. Nous démontrons que la sélection de critères textuels effectuée au début de la controverse est efficace pour prédire l’opinion des articles qui sont publiés par la suite, suggérant que la démarche de sélection de critères interprétables peut être mise au profit d’un système de recommandation qui propose des articles d’opinion issus d’une controverse médiatique.Web-based reading services such as Google News and Yahoo! News have become increasingly popular with the growth of online news consumption. To help users cope with information overload on these search engines, recommender systems and personalization techniques are utilized. These services help users find content that matches their personal interests and tastes, using their browser history and past behavior as a basis for recommendations. However, recommender systems can limit diversity of thought and the range of political perspectives that circulate within the informational environment. In consequence, relevant ideas and questions may not be seen, debatable assumptions may be taken as facts, and overspecialized recommendations may reinforce confirmation bias, special interests, tribalism, and extremist opinions. When the informational environment is insufficiently diverse, there is a loss of open inquiry, dialogue and constructive disagreement—and, as a result, an overall degradation of public discourse. Studies within the artificial intelligence field that try to solve the diversity problem for news recommender systems are confronted by many questions, including the vector model representation of digital texts and the development of a statistical measure that maximizes the difference between similar articles that are proposed to the user by the recommendation process. Studies based on opinion mining techniques propose to tackle the diversity problem in a different manner, by automatically detecting the difference of perspectives between news articles that are related by content in the recommendation process. In this latter approach, the representation of digital texts in the vector model considers a set of words that are associated with opinion expressions, such as adjectives or emotions. However, those techniques are less effective in detecting differences of opinion in a publicly argued debate, because journalistic opinions are not necessarily linked with the journalist’s subjectivity or emotions. The aims of our research are (1) to systematize and validate an opinion mining method that can classify divergent opinions within a controversial debate in the press and (2) to explore the applicability of this method in a news recommender system. We equate controversy to an opinion debate in the press where at least two camps are explicitly opposed in their understanding of a consequential question in their community. Our research raises questions about how to define opinion in this context and discusses the relevance of using discursive and enunciation theoretical approaches in opinion mining. The corpus of our experiment has 495 opinion articles about the 2012 student protest in Quebec against the raise of tuition fees announced by the Liberal Premier Minister Jean Charest. Articles were classified into two categories, ETUD and GOUV, representing the two types of opinions that dominated the debate: namely, those that favored the students and the continuation of the strike or those that favored the government and criticized the student movement. Methodologically, our research is based on the approach of previous studies that explore techniques from the corpus linguistics field in the context of opinion mining, as well as theoretical concepts of François Rastier’s Interpretative Semantics. Our research systematizes the steps of this approach, advocating for a contrastive and interpretative description of the corpus, with the aim of discovering linguistic features that better describe the types of opinion that are to be classified. This approach allows us to select textual features that are interpretable and compatible with the enunciative phenomena in the corpus that are then used to represent the digital texts in the vector model. The approach of previous works has been validated by our analysis of the corpus. The results show that the selection of 447 textual features by an interpretative approach of the corpus performs better for the automatic classification of the opinion articles than a selection process in which the set of words are not identified by linguistic factors. Our research also evaluated the possibility of applying this approach to the development of a news recommender system, by studying the chronological evolution of the vocabulary in the corpus. We show that the selection of features at the beginning of the controversy effectively predicts the opinion of the articles that are published later, suggesting that the selection of interpretable features can benefit the development of a news recommender system in a controversial debate

    Système de recherche d’information étendue basé sur une projection multi-espaces

    Get PDF
    Depuis son apparition au début des années 90, le World Wide Web (WWW ou Web) a offert un accès universel aux connaissances et le monde de l’information a été principalement témoin d’une grande révolution (la révolution numérique). Il est devenu rapidement très populaire, ce qui a fait de lui la plus grande et vaste base de données et de connaissances existantes grâce à la quantité et la diversité des données qu'il contient. Cependant, l'augmentation et l’évolution considérables de ces données soulèvent d'importants problèmes pour les utilisateurs notamment pour l’accès aux documents les plus pertinents à leurs requêtes de recherche. Afin de faire face à cette explosion exponentielle du volume de données et faciliter leur accès par les utilisateurs, différents modèles sont proposés par les systèmes de recherche d’information (SRIs) pour la représentation et la recherche des documents web. Les SRIs traditionnels utilisent, pour indexer et récupérer ces documents, des mots-clés simples qui ne sont pas sémantiquement liés. Cela engendre des limites en termes de la pertinence et de la facilité d'exploration des résultats. Pour surmonter ces limites, les techniques existantes enrichissent les documents en intégrant des mots-clés externes provenant de différentes sources. Cependant, ces systèmes souffrent encore de limitations qui sont liées aux techniques d’exploitation de ces sources d’enrichissement. Lorsque les différentes sources sont utilisées de telle sorte qu’elles ne peuvent être distinguées par le système, cela limite la flexibilité des modèles d'exploration qui peuvent être appliqués aux résultats de recherche retournés par ce système. Les utilisateurs se sentent alors perdus devant ces résultats, et se retrouvent dans l'obligation de les filtrer manuellement pour sélectionner l'information pertinente. S’ils veulent aller plus loin, ils doivent reformuler et cibler encore plus leurs requêtes de recherche jusqu'à parvenir aux documents qui répondent le mieux à leurs attentes. De cette façon, même si les systèmes parviennent à retrouver davantage des résultats pertinents, leur présentation reste problématique. Afin de cibler la recherche à des besoins d'information plus spécifiques de l'utilisateur et améliorer la pertinence et l’exploration de ses résultats de recherche, les SRIs avancés adoptent différentes techniques de personnalisation de données qui supposent que la recherche actuelle d'un utilisateur est directement liée à son profil et/ou à ses expériences de navigation/recherche antérieures. Cependant, cette hypothèse ne tient pas dans tous les cas, les besoins de l’utilisateur évoluent au fil du temps et peuvent s’éloigner de ses intérêts antérieurs stockés dans son profil. Dans d’autres cas, le profil de l’utilisateur peut être mal exploité pour extraire ou inférer ses nouveaux besoins en information. Ce problème est beaucoup plus accentué avec les requêtes ambigües. Lorsque plusieurs centres d’intérêt auxquels est liée une requête ambiguë sont identifiés dans le profil de l’utilisateur, le système se voit incapable de sélectionner les données pertinentes depuis ce profil pour répondre à la requête. Ceci a un impact direct sur la qualité des résultats fournis à cet utilisateur. Afin de remédier à quelques-unes de ces limitations, nous nous sommes intéressés dans ce cadre de cette thèse de recherche au développement de techniques destinées principalement à l'amélioration de la pertinence des résultats des SRIs actuels et à faciliter l'exploration de grandes collections de documents. Pour ce faire, nous proposons une solution basée sur un nouveau concept d'indexation et de recherche d'information appelé la projection multi-espaces. Cette proposition repose sur l'exploitation de différentes catégories d'information sémantiques et sociales qui permettent d'enrichir l'univers de représentation des documents et des requêtes de recherche en plusieurs dimensions d'interprétations. L’originalité de cette représentation est de pouvoir distinguer entre les différentes interprétations utilisées pour la description et la recherche des documents. Ceci donne une meilleure visibilité sur les résultats retournés et aide à apporter une meilleure flexibilité de recherche et d'exploration, en donnant à l’utilisateur la possibilité de naviguer une ou plusieurs vues de données qui l’intéressent le plus. En outre, les univers multidimensionnels de représentation proposés pour la description des documents et l’interprétation des requêtes de recherche aident à améliorer la pertinence des résultats de l’utilisateur en offrant une diversité de recherche/exploration qui aide à répondre à ses différents besoins et à ceux des autres différents utilisateurs. Cette étude exploite différents aspects liés à la recherche personnalisée et vise à résoudre les problèmes engendrés par l’évolution des besoins en information de l’utilisateur. Ainsi, lorsque le profil de cet utilisateur est utilisé par notre système, une technique est proposée et employée pour identifier les intérêts les plus représentatifs de ses besoins actuels dans son profil. Cette technique se base sur la combinaison de trois facteurs influents, notamment le facteur contextuel, fréquentiel et temporel des données. La capacité des utilisateurs à interagir, à échanger des idées et d’opinions, et à former des réseaux sociaux sur le Web, a amené les systèmes à s’intéresser aux types d’interactions de ces utilisateurs, au niveau d’interaction entre eux ainsi qu’à leurs rôles sociaux dans le système. Ces informations sociales sont abordées et intégrées dans ce travail de recherche. L’impact et la manière de leur intégration dans le processus de RI sont étudiés pour améliorer la pertinence des résultats. Since its appearance in the early 90's, the World Wide Web (WWW or Web) has provided universal access to knowledge and the world of information has been primarily witness to a great revolution (the digital revolution). It quickly became very popular, making it the largest and most comprehensive database and knowledge base thanks to the amount and diversity of data it contains. However, the considerable increase and evolution of these data raises important problems for users, in particular for accessing the documents most relevant to their search queries. In order to cope with this exponential explosion of data volume and facilitate their access by users, various models are offered by information retrieval systems (IRS) for the representation and retrieval of web documents. Traditional SRIs use simple keywords that are not semantically linked to index and retrieve these documents. This creates limitations in terms of the relevance and ease of exploration of results. To overcome these limitations, existing techniques enrich documents by integrating external keywords from different sources. However, these systems still suffer from limitations that are related to the exploitation techniques of these sources of enrichment. When the different sources are used so that they cannot be distinguished by the system, this limits the flexibility of the exploration models that can be applied to the results returned by this system. Users then feel lost to these results, and find themselves forced to filter them manually to select the relevant information. If they want to go further, they must reformulate and target their search queries even more until they reach the documents that best meet their expectations. In this way, even if the systems manage to find more relevant results, their presentation remains problematic. In order to target research to more user-specific information needs and improve the relevance and exploration of its research findings, advanced SRIs adopt different data personalization techniques that assume that current research of user is directly related to his profile and / or previous browsing / search experiences. However, this assumption does not hold in all cases, the needs of the user evolve over time and can move away from his previous interests stored in his profile. In other cases, the user's profile may be misused to extract or infer new information needs. This problem is much more accentuated with ambiguous queries. When multiple POIs linked to a search query are identified in the user's profile, the system is unable to select the relevant data from that profile to respond to that request. This has a direct impact on the quality of the results provided to this user. In order to overcome some of these limitations, in this research thesis, we have been interested in the development of techniques aimed mainly at improving the relevance of the results of current SRIs and facilitating the exploration of major collections of documents. To do this, we propose a solution based on a new concept and model of indexing and information retrieval called multi-spaces projection. This proposal is based on the exploitation of different categories of semantic and social information that enrich the universe of document representation and search queries in several dimensions of interpretations. The originality of this representation is to be able to distinguish between the different interpretations used for the description and the search for documents. This gives a better visibility on the results returned and helps to provide a greater flexibility of search and exploration, giving the user the ability to navigate one or more views of data that interest him the most. In addition, the proposed multidimensional representation universes for document description and search query interpretation help to improve the relevance of the user's results by providing a diversity of research / exploration that helps meet his diverse needs and those of other different users. This study exploits different aspects that are related to the personalized search and aims to solve the problems caused by the evolution of the information needs of the user. Thus, when the profile of this user is used by our system, a technique is proposed and used to identify the interests most representative of his current needs in his profile. This technique is based on the combination of three influential factors, including the contextual, frequency and temporal factor of the data. The ability of users to interact, exchange ideas and opinions, and form social networks on the Web, has led systems to focus on the types of interactions these users have at the level of interaction between them as well as their social roles in the system. This social information is discussed and integrated into this research work. The impact and how they are integrated into the IR process are studied to improve the relevance of the results

    Modèle multi-agents pour le filtrage collaboratif de l'information

    Get PDF
    Les systèmes de recommandation sont nés de la volonté de pallier le problème de surcharge d'information du web. Combinant des techniques de filtrage d'information, personnalisation, intelligence artificielle, réseaux sociaux et interaction personne-machine, les systèmes de recommandation fournissent à des utilisateurs des suggestions qui répondent à leurs besoins et préférences informationnelles. En effet, les systèmes de recommandation sont particulièrement sollicités dans les applications de commerce électronique. Cependant, ce type de système a été en grande partie confiné à une architecture centralisée. Récemment, l'architecture distribuée a connu une popularité croissante, comme en témoigne par exemple, les réseaux pair-à-pair (« peer-to-peer »), le calcul distribué (« Grid computing »), le web sémantique, etc., et s'impose peu à peu comme une alternative à l'approche client/serveur classique. L'hypothèse des chercheurs est que les systèmes de recommandation peuvent tirer profit d'une architecture distribuée. Dans cette thèse, nous étudions les défis que posent les systèmes de recommandation distribués et nous proposons une nouvelle architecture pair-à-pair, de filtrage collaboratif, basée sur la discrimination du voisinage. Nous étudions l'évolution de la performance, de la couverture et de la qualité des prédictions pour différentes techniques de recommandation. En outre, nous identifions la méthode de recommandation la plus efficace pour cette nouvelle architecture pair-à-pair. Bien que cette thèse se concentre essentiellement sur le domaine décentralisé de système de recommandation, nos contributions ne se limitent pas strictement à ce domaine de recherche. En effet, ces contributions touchent des problèmes de recherche dans plusieurs autres domaines de recherche (système multi-agents, gestions profils utilisateurs, réduction de la complexité computationnelle, collecte des préférences utilisateurs, PageRank, etc.). ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Filtrage de l'information, Filtrage collaboratif, Système de recommandation, Système distribué, Agent social

    Le filtrage basé sur le contenu pour la recommandation de cours (FCRC)

    Get PDF
    RÉSUMÉ La recherche d'un cours sur un sujet précis dans un répertoire d'une ou de plusieurs universités peut s'avérer fastidieuse. Seulement à Montréal, on compte plusieurs milliers de cours universitaires offerts. Le problème est accentué par la multidisciplinarité de certains cours. Les étudiants de cycle supérieur sont responsables de ¬¬¬choisir leur plan d’études, les cours pertinents à leur domaine de recherche, mais ce n’est pas évident qu’ils puissent faire le bon choix des cours sans avoir besoin d’être guidés ou orientés. Encore, les étudiants du premier cycle ont souvent le problème du nombre de places limité dans un groupe de cours. Avec un outil permettant d'établir la similarité entre des cours, les étudiants pourraient trouver rapidement des cours similaires à ceux qui, pour une raison ou une autre, ne sont pas disponibles à un trimestre ou pour leur plan d’étude. A cette fin, plusieurs systèmes de filtrage ont été proposés, mais le filtrage basé sur le contenu pour la recommandation de cours, n’a jamais été abordé avant. L’objectif est de créer un système permettant d’établir la similarité entre les cours en se basant sur leurs descriptions et sur le calcul de leur distance dans un espace vectoriel . Ce mémoire présente le système FCRC (Filtrage basé Contenu pour la Recommandation de Cours) qui fournit des suggestions de cours sur la base de leur similarité sémantique. Les résultats montrent que la mesure de similarité basée sur le cosinus fournit des recommandations relativement précises et complètes. Le coefficient de Dice permet aussi d’obtenir de bons résultats. Ces deux mesures sont les plus performantes. Nous sommes arrivés à identifier plus que cinq cours les plus similaires à l’intérieur des dix premiers résultats.----------ABSTRACT Searching for courses on a topic in a university database or listing of courses can prove difficult. Strictly in Montreal universities, the number of courses range in the thousands. The problem is exacerbated by the fact that many courses are multidisciplinary. For graduate students in particular, who should look for courses on a topic related to their research, it implies that defining their course plan can be a difficult process that requires some assistance. Even when a course that is relevant is found, it often is not offered in the right semester or it is filled to capacity. Therefore, a system that provides a means of finding courses based on their similarity would prove very useful. A number of systems have been developed to provide course recommendations to students, but we aim to define an approach that is solely content-based, using the similarity of course descriptions. The algorithm is based on the vector-space model of the term-document matrix. This thesis presents the FCRC approach (content-based course recommender) which offers recommendations based on course similarity measures. Results show that the similarity measured on the cosine between document vectors offers relatively complete and precise recommendations. The Dice coefficient is also a good measure of similarity. In general, the first 5 of 10 recommendations are relevant based on this approach, and the recall rate is close to 100%

    SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste de Documents Web

    Get PDF
    La présente thèse de doctorat en informatique propose un modèle pour une recherche d'information intelligente possibiliste des documents Web et son implémentation. Ce modèle est à base de deux Réseaux Petits Mondes Hiérarchiques (RPMH) et d'un Réseau Possibiliste (RP) : Le premier RPMH consiste à structurer les documents retrouvés en zones denses de pages Web thématiquement liées les unes aux autres. Nous faisons ainsi apparaître des nuages denses de pages qui traitent d'un sujet et des sujets connexes (assez similaires sémantiquement) et qui répondent toutes fortement à une requête. Le second RPMH est celui qui consiste à ne pas prendre les mots-clés tels quels mais à considérer une requête comme multiple en ce sens qu'on ne cherche pas seulement le mot-clé dans les pages Web mais aussi les substantifs qui lui sont sémantiquement proches. Les Réseaux Possibilistes combinent les deux RPMH afin d'organiser les documents recherchés selon les préférences de l'utilisateur. En effet, l'originalité du modèle proposé se décline selon les trois volets suivants qui synthétisent nos contributions. Le premier volet s'intéresse au processus itératif de la reformulation sémantique de requêtes. Cette technique est à base de relations de dépendance entre les termes de la requête. Nous évaluons notamment les proximités des mots du dictionnaire français « Le Grand Robert » par rapport aux termes de la requête. Ces proximités sont calculées par le biais de notre approche de recherche des composantes de sens dans un RPMH de dictionnaire de mots par application d'une méthode basée sur le dénombrement des circuits dans le réseau. En fait, l'utilisateur du système proposé choisit le nombre de mots sémantiquement proches qu'il désire ajouter à chaque terme de sa requête originelle pour construire sa requête reformulée sémantiquement. Cette dernière représente la première partie de son profil qu'il propose au système. La seconde partie de son profil est constituée des choix des coefficients de pertinence possibilistes affectés aux entités logiques des documents de la collection. Ainsi, notre système tient compte des profils dynamiques des utilisateurs au fur et à mesure que ces derniers utilisent le système. Ce dernier est caractérisé par son intelligence, son adaptativité, sa flexibilité et sa dynamicité. Le second volet consiste à proposer des relations de dépendance entre les documents recherchés dans un cadre ordinal. Ces relations de dépendance entre ces documents traduisent les liens sémantiques ou statistiques évaluant les distributions des termes communs à des paires ou ensembles de documents. Afin de quantifier ces relations, nous nous sommes basés sur les calculs des proximités entres ces documents par application d'une méthode de dénombrement de circuits dans le RPMH de pages Web. En effet, les documents peuvent ainsi être regroupés dans des classes communes (groupes de documents thématiquement proches). Le troisième volet concerne la définition des relations de dépendance, entre les termes de la requête et les documents recherchés, dans un cadre qualitatif. Les valeurs affectées à ces relations traduisent des ordres partiels de préférence. En fait, la théorie des possibilités offre deux cadres de travail : le cadre qualitatif ou ordinal et le cadre quantitatif. Nous avons proposé notre modèle dans un cadre ordinal. Ainsi, des préférences entre les termes de la requête se sont ajoutées à notre modèle de base. Ces préférences permettent de restituer des documents classés par préférence de pertinence. Nous avons mesuré aussi l'apport de ces facteurs de préférence dans l'augmentation des scores de pertinence des documents contenant ces termes dans le but de pénaliser les scores de pertinence des documents ne les contenant pas. Pour la mise en place de ce modèle nous avons choisi les systèmes multi-agents. L'avantage de l'architecture que nous proposons est qu'elle offre un cadre pour une collaboration entre les différents acteurs et la mise en œuvre de toutes les fonctionnalités du système de recherche d'information (SRI). L'architecture s'accorde parfaitement avec le caractère intelligent possibiliste et permet de bénéficier des capacités de synergie inhérente entre les différentes composantes du modèle proposé. Dans le présent travail, nous avons donc pu mettre en exergue à travers les expérimentations effectuées l'intérêt de faire combiner les deux RPMH via un réseau possibiliste dans un SRI, ce qui permet d'enrichir le niveau d'exploration d'une collection. Ce dernier n'est pas limité aux documents mais l'étend en considérant les requêtes. En effet, la phase de reformulation sémantique de requête permet à l'utilisateur de profiter des autres documents correspondants aux termes sémantiquement proches des termes de la requête originelle. Ces documents peuvent exister dans d'autres classes des thèmes. En conséquence, une reclassification proposée par le système s'avère pertinente afin d'adapter les résultats d'une requête aux nouveaux besoins des utilisateurs. ABSTRACT : This Ph.D. thesis proposes a new model for a multiagent possibilistic Web information retrieval and its implementation. This model is based on two Hierarchical Small-Worlds (HSW) Networks and a Possibilistic Networks (PN): The first HSW consists in structuring the founded documents in dense zones of Web pages which strongly depend on each other. We thus reveal dense clouds of pages which "speak" more or less about the same subject and related subjects (semantically similar) and which all strongly answer user's query. The second HSW consists in considering the query as multiple in the sense that we don't seek only the keyword in the Web pages but also its semantically close substantives. The PN generates the mixing of these two HSW in order to organize the searched documents according to user's preferences. Indeed, the originality of the suggested model is declined according to three following shutters' which synthesize our contributions. The first shutter is interested in the iterative process of query semantic reformulation. This technique is based on relationship dependence between query's terms. We evaluate in particular the semantics proximities between the words of the French dictionary "Le Grand Robert" and query's terms. These proximities are calculated via our approach of research of the semantics components in the HSW of dictionary of words by application of our method of enumeration of circuits in the HSW of dictionary. In fact, the user of the suggested system chooses the number of close words that he desire to add to each word of his initial query to build his semantically reformulated query. This one represents the first part of user's profile which he proposes to the system. The second part of its profile makes up of its choices of the coefficients of relevance possibilistic of the logical entities of the documents of the collection. Thus, our system takes account of the dynamic profiles of its users progressively they use the system, which proves its intelligence, its adaptability, its flexibility and its dynamicity. The second shutter consists in proposing relationship dependence between documents of the collection within an ordinal framework. These relationships dependence between these documents represent the semantic or statistical links evaluating the distributions of the general terms to pairs or sets of documents.  In order to quantify these relationships, we are based on the calculations of the proximities between these documents by application of a method enumerating of circuits in the HSW of Web pages. Indeed, the documents can thus be clustered in common classes (groups of close documents). The third shutter is related to the definition of the relationships dependence between query's terms and documents of the collection, within a qualitative framework. The assigned values to these relations translate preferably partial orders. In fact, possibilistic theory offers two working frameworks:  the qualitative or ordinal framework and the numerical framework.  We proposed our model within an ordinal framework. Thus, we add to our basic model preferences between query's terms. These preferences make it possible to restore documents classified by relevance's preference. We also measured the contribution of these preferably factors in the increase of the relevance's scores of  documents containing these terms with an aim of penalizing the relevance's scores of the documents not containing them. For the installation of this model we chose multiagent systems. The advantage of the proposed architecture is that it offers a framework for collaboration between the various actors and the implementation of all the functionalities of the information retrieval system. Architecture agrees perfectly with the possibilistic intelligent character and makes it possible to profit from the capacities of inherent synergy in the suggested model. We thus could put forward, through the carried out experiments, the goal of combining the two HSW via a possibilistic network in an information retrieval system, which makes it possible to enrich the exploration level of a collection. This exploration is not only limited to the documents but it extends by considering also the query. Indeed, the semantic query reformulation phase makes it possible to benefit user from other documents which contain some close terms of the initial query. These documents can exist in other topics classes. Consequently, a reclassification suggested by the system proves its relevance in order to adapt query's results to new user's needs

    Exploration d’articles scientifiques sur les maladies rares pour l’extraction d’informations

    Get PDF
    Les maladies rares constituent un sujet peu connu du grand public. Néanmoins, malgré leur nom, un grand nombre de personnes sont affligées par une ou plusieurs d'entre elles. La recherche sur près de sept mille maladies rares est insuffisante, et même si certains travaux ont été réalisés pour exploiter les publications scientifiques et extraire des informations pertinentes, les connaissances sont très difficiles à obtenir pour la population en général. Ce document présente un nouveau système qui tente d'aborder l’extraction des connaissances sur les maladies rares dans les publications scientifiques. En particulier, nous nous concentrons sur la tâche d'extraire automatiquement les symptômes de maladies rares à partir de publications avec une nouvelle approche utilisant un algorithme de reconnaissance d'entité nommée (NER) basé sur la statistique numérique Term Frequency - Inverse Document Frequency (TF-IDF). L’approche envisagée permet d’atteindre un F-score de 17.17% avec une évaluation sur près de 3000 maladies rares, ce qui représente un progrès dans le cadre de l’extraction de symptômes de maladies rares à partir de publications scientifiques. Ce mémoire est séparé comme suit. Le premier chapitre introduira le contexte, les motivations, le problème de recherche, les contributions et la méthodologie. Le second chapitre est une revue de littérature qui présentera les travaux pertinents de ce travail de recherche et permettra de définir la direction prise par ce projet par rapport au sujet des maladies rares. Le troisième chapitre introduira les étapes, les concepts ainsi que les termes importants à définir dans le cadre d’un projet de « text mining ». Le quatrième chapitre décrira les différentes contributions du travail de recherche en précisant les éléments extraits, les sources de données et les algorithmes utilisés (TF-IDF modifié), sans oublier la description de l’outil développé et la phase d’expérimentation. Enfin, le dernier chapitre conclura ce travail de recherche par une revue des contributions, les limites du travail de recherche, les travaux futurs envisageables et une conclusion personnelle sur le projet de recherche

    Gestion de la sécurité des réseaux à l'aide d'un service innovant de Cloud Based Firewall

    Get PDF
    Cloud computing has evolved over the last decade from a simple storage service for more complex services, offering the software as a service (SaaS) platforms as a service (PaaS) and most recently the security as a service (SECaaS). In our work, we started with the simple idea to use the resources offered by the Cloud with a low financial cost to propose new architectures of security service. The security of virtual environments is a major issue for the deployment of the use of the Cloud. Unfortunately, these environments are composed of a set of already existing technologies used in a new way, many security solutions are only traditional reconditioned solutions to solve the Cloud and virtual networks security issues. The work done in this thesis is a response to the resource limitations of physical security devices such as firewalls and propose new security architectures consist of management of network security in the cloud-based services following Security as a Service model and propose novel architectures for managing these services. We took the initiative to propose a completely Cloud-Based architecture. The latter allows a cloud provider to provide firewalling service to its customers. It asks them to subscribe to the offer by guaranteeing treatment (analysis) with a capacity of bandwidth traffic with functional filtering rules and other proposed by the subscriber. The results demonstrated the ability of our architecture to manage and cope with network DDoS attacks and to increase analytical capacity by distributing traffic over multiple virtualLe Cloud Computing a évolué au cours de la dernière décennie, passant d’un simple service de stockage à des services plus complexes, en proposant le software comme service (SaaS), les plateformes comme service(PaaS) et très récemment la sécurité comme service (SECaaS).Dans notre travail, nous sommes partis de l'idée simple d'utiliser les ressources offertes par le Cloud avec un faible coût financier pour proposer des nouvelles architectures de service de sécurité.La sécurité des environnements virtuels est un sujet majeur pour le déploiement de l’usage du Cloud. Malheureusement, comme ces environnements sont composés d’un ensemble de technologies déjà existantes, utilisées d'une manière nouvelle, de nombreuses solutions sécuritaires ne sont que des solutions traditionnelles reconditionnées à la problématique Cloud et réseaux virtuels.Le travail effectué dans le cadre de cette thèse vient répondre à la limitation de ressources des équipements physiques de sécurité comme les Firewalls et a pour objectif de proposer de nouveaux services de sécurité composés d’architectures de gestion de la sécurité des réseaux dans le Cloud basé sur le modèle Security as a Service, ainsi que des architectures de management de ces services.Nous avons pris l’initiative de proposer une architecture totalement Cloud-Based. Cette dernière, permet à un Cloud provider de proposer un service de Firewalling à ses clients. Celui-ci leur demande de s’abonner à l’offre en leur garantissant le traitement (analyse) d’une capacité de bande-passante de trafic avec des règles de filtrages fonctionnelles et d’autres proposées par l’abonné.Les résultats obtenus ont démontré les aptitudes de nos architectures à gérer et à faire face à des attaques réseaux de type DDoS et à augmenter la capacité d’analyse en distribuant le trafic sur plusieurs pare-feu virtuels

    Gestion des risques par retour d'expérience dans le processus de réponse à appel d'offres

    Get PDF
    Un appel d'offres (AO) est une procédure qui permet au maître d'ouvrage (MOA) de faire le choix du prestataire ou maître d'œuvre (MOE) à qui il confiera une réalisation de travaux, fournitures ou services. Cette pratique, incontournable pour quasiment tous les secteurs professionnels, repose sur la mise en concurrence de prestataires potentiels vis-à-vis d'une demande client. Chaque répondant engage des ressources et du temps pour élaborer des propositions qui ne seront pas toujours retenues. Le processus de réponse à appel d'offres (PRAO) est fortement contraint car, pour être acceptées, les propositions doivent satisfaire aux exigences du Cahier des Charges (CdC) tout en restant économiquement viables pour le prestataire. Le PRAO est une pratique risquée. De façon générale, le premier niveau de risque est de ne pas répondre à l'AO et d'écarter un projet intéressant sur le plan technique et/ou économique ; ensuite, si la décision a été de répondre, un deuxième risque est de ne pas être accepté par le client ; enfin, en cas d'acceptation, si la proposition a été mal élaborée à cause d'une appréciation incorrecte par le prestataire des difficultés sous-tendues par la réalisation, celui-ci peut s'engager dans un processus très pénalisant (dépassements de budgets, non conformités aux exigences techniques, non-respect des délais,…). Afin de minimiser ces risques, nous proposons dans ce travail une amélioration du processus de réponse à appel d'offres (PRAO) par la mise en place d'une instrumentation renforçant ce processus et la définition d'une méthodologie de conduite adaptée. L'objectif est de fournir au MOE des outils d'aide à la décision pour détecter, rendre compte et minimiser les risques potentiels. La démarche consiste à adosser au PRAO un système de retour d'expérience, portant sur les PRAO passés et sur les cycles de développement associés, couplé à une démarche structurée de gestion des risques afin d'offrir au soumissionnaire les appuis nécessaires à la construction d‘une réponse « robuste » à l'AO. Cette instrumentation du cadre de travail du souscripteur et la proposition de conduite associée forment le socle de la méthodologie BiPRiM (Bidding Process Risk Management) que nous avons développée. Nous proposons dans celle-ci la mise en œuvre pratique des modèles de risques et d'expériences PRAO que nous avons développés ; nous nous appuyons sur les mécanismes d'acquisition, de traitement et d'exploitation du système de retour d'expérience sous-jacent pour conduire le processus de gestion des risques PRAO et, en élargissant, le processus décisionnel qui supporte le PRAO. ABSTRACT : Call for tenders is a procedure that allows a client company to choose the provider of works, supplies or services. This practice is essential for almost all industry sectors and is based on the competition of potential providers according to a client request. Each bidder commits ressources and time to develop proposals that will not always be accepted. Bidding Process (BP) is highly constrained because, to be accepted, proposals must meet the client requirements while remaining economically viable for the provider. BP is a risky practice. In general, the first risk level is related to the choice of not responding to a call for tenders whereas it was an opportunity (i.e. an interesting project on technical and/or economic terms). Then, if the decision was to respond, a second risk level is not to be accepted by the client; finally, when the tender is accepted, a third risk level is related to the proposal realization potential problems. Indeed, if the related offer was poorly developed, due to an incorrect assessment by the bidder of the difficulties of the underlying realization, the bidder can be engaged in a very penalizing process (overruns, non-compliance of technical requirements, non-compliance of deadlines...). In order to minimize these risks, an improvement of BP has been proposed by setting up an instrumentation reinforcing this process and by the definition of a methodology for its appropriate management. The objective is therefore to provide to the bidder decision support tools to detect, report and minimize potential risks. The approach consists in the integration to the BP of an experience feedback system involving past bidding processes and associated development cycles, coupled with a structured approach of risk management to provide to the bidder the necessary support for the development of a "robust" response to new calls for tenders. This proposed bidder decision support system instrumentation and the associated management process establish the basis of the BiPRiM methodology (Bidding Process Risk Management) that was developed. In this development, a practical implementation of risk models and BP experiences has been developed. It rests upon the mechanisms of acquisition, processing and exploitation of the underlying experience feedback system in order to conduct the risk management process in the BP while broadening the associated decision-making process
    • …
    corecore