Search CORE

176 research outputs found

Fédération de ressources pédagogiques

Author: Broisin Julien
Vidal Philippe
Publication venue: HAL CCSD
Publication date: 29/06/2005
Field of study

La virtualisation des ressources pédagogiques est devenue un aspect crucial de l'EIAH, et ce pour plusieurs raisons : (a) atteindre cet objectif pour faire face à l'évolution rapide des technologies et une nécessité d'apprentissage et de savoir-faire primordiale pour la survie de tous, (b) rendre nos outils attractifs et pérennes, et (c) se répartir la construction d'un patrimoine de ressources pédagogiques. De nombreux systèmes d'apprentissage existent aujourd'hui mais leurs ressources pédagogiques restent, le plus souvent, cloisonnées au sein de ces systèmes. Nous présentons dans cet article une architecture ouverte basée sur les standards prédominants de la FOAD, et qui supporte les fonctionnalités nécessaires à la virtualisation de ressources pédagogiques. Aussi nous exposons une expérimentation validant l'architecture proposée et qui offre une fédération de deux systèmes indépendants

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Steps towards adaptive situation and context-aware access: a contribution to the extension of access control mechanisms within pervasive information systems

Author: Al Kukhun Dana
Publication venue
Publication date: 02/10/2012
Field of study

L'évolution des systèmes pervasives a ouvert de nouveaux horizons aux systèmes d'information classiques qui ont intégré des nouvelles technologies et des services qui assurent la transparence d'accès aux resources d'information à n'importe quand, n'importe où et n'importe comment. En même temps, cette évolution a relevé des nouveaux défis à la sécurité de données et à la modélisation du contrôle d'accès. Afin de confronter ces challenges, differents travaux de recherche se sont dirigés vers l'extension des modèles de contrôles d'accès (en particulier le modèle RBAC) afin de prendre en compte la sensibilité au contexte dans le processus de prise de décision. Mais la liaison d'une décision d'accès aux contraintes contextuelles dynamiques d'un utilisateur mobile va non seulement ajouter plus de complexité au processus de prise de décision mais pourra aussi augmenter les possibilités de refus d'accès. Sachant que l'accessibilité est un élément clé dans les systèmes pervasifs et prenant en compte l'importance d'assurer l'accéssibilité en situations du temps réel, nombreux travaux de recherche ont proposé d'appliquer des mécanismes flexibles de contrôle d'accès avec des solutions parfois extrêmes qui depassent les frontières de sécurité telle que l'option de "Bris-de-Glace". Dans cette thèse, nous introduisons une solution modérée qui se positionne entre la rigidité des modèles de contrôle d'accès et la flexibilité qui expose des risques appliquées pendant des situations du temps réel. Notre contribution comprend deux volets : au niveau de conception, nous proposons PS-RBAC - un modèle RBAC sensible au contexte et à la situation. Le modèle réalise des attributions des permissions adaptatives et de solution de rechange à base de prise de décision basée sur la similarité face à une situation importanteÀ la phase d'exécution, nous introduisons PSQRS - un système de réécriture des requêtes sensible au contexte et à la situation et qui confronte les refus d'accès en reformulant la requête XACML de l'utilisateur et en lui proposant une liste des resources alternatives similaires qu'il peut accéder. L'objectif est de fournir un niveau de sécurité adaptative qui répond aux besoins de l'utilisateur tout en prenant en compte son rôle, ses contraintes contextuelles (localisation, réseau, dispositif, etc.) et sa situation. Notre proposition a été validé dans trois domaines d'application qui sont riches des contextes pervasifs et des scénarii du temps réel: (i) les Équipes Mobiles Gériatriques, (ii) les systèmes avioniques et (iii) les systèmes de vidéo surveillance.The evolution of pervasive computing has opened new horizons to classical information systems by integrating new technologies and services that enable seamless access to information sources at anytime, anyhow and anywhere. Meanwhile this evolution has opened new threats to information security and new challenges to access control modeling. In order to meet these challenges, many research works went towards extending traditional access control models (especially the RBAC model) in order to add context awareness within the decision-making process. Meanwhile, tying access decisions to the dynamic contextual constraints of mobile users would not only add more complexity to decision-making but could also increase the possibilities of access denial. Knowing that accessibility is a key feature for pervasive systems and taking into account the importance of providing access within real-time situations, many research works have proposed applying flexible access control mechanisms with sometimes extreme solutions that depass security boundaries such as the Break-Glass option. In this thesis, we introduce a moderate solution that stands between the rigidity of access control models and the riskful flexibility applied during real-time situations. Our contribution is twofold: on the design phase, we propose PS-RBAC - a Pervasive Situation-aware RBAC model that realizes adaptive permission assignments and alternative-based decision-making based on similarity when facing an important situation. On the implementation phase, we introduce PSQRS - a Pervasive Situation-aware Query Rewriting System architecture that confronts access denials by reformulating the user's XACML access request and proposing to him a list of alternative similar solutions that he can access. The objective is to provide a level of adaptive security that would meet the user needs while taking into consideration his role, contextual constraints (location, network, device, etc.) and his situation. Our proposal has been validated in three application domains that are rich in pervasive contexts and real-time scenarios: (i) Mobile Geriatric Teams, (ii) Avionic Systems and (iii) Video Surveillance Systems

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Mobiliser et valoriser les données sur les sols forestiers. Compte rendu de l’atelier 4

Author: Buitrago Miriam
Eglin Thomas
Landmann Guy
Martin Manuel
Maurice Damien
Nicolas Manuel
Perrier Céline
Publication venue: 'INIST-CNRS'
Publication date: 01/01/2014
Field of study

Une meilleure connaissance des sols forestiers et l’amélioration des référentiels pour interpréter leur fonctionnement est une attente des forestiers comme des acteurs des politiques publiques. Lors de REGEFOR 2013, l’atelier “Mobiliser et valoriser les données sur les sols forestiers” a identifié une ressource importante et sous-exploitée de données au niveau des organismes de développement et des laboratoires de recherche. Des outils existent pour les rendre plus visibles et accessibles sur le réseau internet. Face à la dispersion et à la faible harmonisation des jeux de données, des chantiers importants sont à mettre en oeuvre pour favoriser leur exploitation (exemple : mise en base de données, production de métadonnées et de référentiels sémantiques communs, clarification des droits de propriété, protocoles d’échanges de données entre applications). Dans cette optique, l’atelier a aussi conduit à s’interroger sur les possibilités d’améliorer la coordination entre production et gestion de données, notamment en discutant les intérêts et limites d’une centralisation sous un même système d’information

I-Revues

Crossref

Métadonnées et processus pour l'archivage de données médiatiques

Author: Amar Mama
Publication venue
Publication date: 01/03/2012
Field of study

De nos jours, les données multimédia sont de plus en plus utilisées dans de nombreux secteurs de l'informatique. Cela a provoqué l'expansion de grandes quantités de données multimédia. Ainsi, vu le volume de données et le manque de structure d'OM, il devient de plus en plus difficile de les organiser et de les stocker. En effet, l'exploitation de ressources multimédia nécessite des méthodes et des outils informatiques efficaces pour faciliter leur accès, leur utilisation, leur organisation et leur partage. Les métadonnées multimédia peuvent jouer un rôle essentiel à l'élaboration de ces outils. En effet, les métadonnées peuvent rendre les objets multimédia plus explicites et plus faciles à manipuler par les applications informatiques. Ainsi, un bon nombre d'universitaires et de professionnels s'investissent dans l'élaboration de standards et d'outils pour la gestion et l'archivage d'objets multimédia. Cependant, vu la diversité des standards, il existe souvent une problématique d’interopérabilité entre les standards. De plus, les standards sont définis en général pour des domaines spécifiques. Dans ce mémoire, nous définissons une approche basée sur les métadonnées et les processus pour une gestion optimale et l'archivage des objets multimédia. Aussi, nous définissons un prototype basé sur cette approche. Les résultats de notre expérimentation ont montré l'importance d'un processus pour la gestion d'OM et de métadonnées pour faciliter la recherche, l'exploitation et l'archivage d'OM. Nos résultats ont aussi montré la flexibilité du modèle de données proposé. Ce dernier est extensible et est adaptable au contexte d'utilisation. À chaque étape du processus de gestion d'un OM, les résultats font ressortir l'importance des métadonnées. \ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : MultiMedia, Métadonnées, Annotations, Processus, Archivage, Modèle de donnée

Archipel - Université du Québec à Montréal

Modélisation des métadonnées multi sources et hétérogènes pour le filtrage négatif et l'interrogation intelligente de grands volumes de données : application à la vidéosurveillance

Author: Jeveme Panta Franck
Publication venue
Publication date: 07/10/2020
Field of study

En raison du déploiement massif et progressif des systèmes de vidéosurveillance dans les grandes métropoles, l'analyse a posteriori des vidéos issues de ces systèmes est confrontée à de nombreux problèmes parmi lesquels: (i) l'interopérabilité, due aux différents formats de données (vidéos) et aux spécifications des caméras propres à chaque système ; (ii) le grand temps d'analyse lié à l'énorme quantité de données et métadonnées générées ; et (iii) la difficulté à interpréter les vidéos qui sont parfois à caractère incomplet. Face à ces problèmes, la nécessité de proposer un format commun d'échange des données et métadonnées de vidéosurveillance, de rendre le filtrage et l'interrogation des contenus vidéo plus efficaces, et de faciliter l'interprétation des contenus grâce aux informations exogènes (contextuelles) est une préoccupation incontournable. De ce fait, cette thèse se focalise sur la modélisation des métadonnées multi sources et hétérogènes afin de proposer un filtrage négatif et une interrogation intelligente des données, applicables aux systèmes de vidéosurveillance en particulier et adaptables aux systèmes traitant de grands volumes de données en général. L'objectif dans le cadre applicatif de cette thèse est de fournir aux opérateurs humains de vidéosurveillance des outils pour les aider à réduire le grand volume de vidéo à traiter ou à visionner et implicitement le temps de recherche. Nous proposons donc dans un premier temps une méthode de filtrage dit "négatif", qui permet d'éliminer parmi la masse de vidéos disponibles celles dont on sait au préalable en se basant sur un ensemble de critères, que le traitement n'aboutira à aucun résultat. Les critères utilisés pour l'approche de filtrage négatif proposé sont basés sur une modélisation des métadonnées décrivant la qualité et l'utilisabilité/utilité des vidéos. Ensuite, nous proposons un processus d'enrichissement contextuel basé sur les métadonnées issues du contexte, et permettant une interrogation intelligente des vidéos. Le processus d'enrichissement contextuel proposé est soutenu par un modèle de métadonnées extensible qui intègre des informations contextuelles de sources variées, et un mécanisme de requêtage multiniveaux avec une capacité de raisonnement spatio-temporel robuste aux requêtes floues. Enfin, nous proposons une modélisation générique des métadonnées de vidéosurveillance intégrant les métadonnées décrivant le mouvement et le champ de vue des caméras, les métadonnées issues des algorithmes d'analyse des contenus, et les métadonnées issues des informations contextuelles, afin de compléter le dictionnaire des métadonnées de la norme ISO 22311/IEC 79 qui vise à fournir un format commun d'export des données extraites des systèmes de vidéosurveillance. Les expérimentations menées à partir du framework développé dans cette thèse ont permis de démontrer la faisabilité de notre approche dans un cas réel et de valider nos propositions.Due to the massive and progressive deployment of video surveillance systems in major cities, a posteriori analysis of videos coming from these systems is facing many problems, including the following: (i) interoperability, due to the different data (video) formats and camera specifications associated to each system; (ii) time-consuming nature of analysis due to the huge amount of data and metadata generated; and (iii) difficulty to interpret videos which are sometimes incomplete. To address these issues, the need to propose a common format to exchange video surveillance data and metadata, to make video content filtering and querying more efficient, and to facilitate the interpretation of content using external (contextual) information is an unavoidable concern. Therefore, this thesis focuses on heterogeneous and multi-source metadata modeling in order to propose negative filtering and intelligent data querying, which are applicable to video surveillance systems in particular and adaptable to systems dealing with large volumes of data in general. In the applicative context of this thesis, the goal is to provide human CCTV operators with tools that help them to reduce the large volume of video to be processed or viewed and implicitly reduce search time. We therefore initially propose a so-called "negative" filtering method, which enables the elimination from the mass of available videos those that it is know in advance, based on a set of criteria, that the processing will not lead to any result. The criteria used for the proposed negative filtering approach are based on metadata modeling describing video quality and usability/usefulness. Then, we propose a contextual enrichment process based on metadata from the context, enabling intelligent querying of the videos. The proposed contextual enrichment process is supported by a scalable metadata model that integrates contextual information from a variety of sources, and a multi-level query mechanism with a spatio-temporal reasoning ability that is robust to fuzzy queries. Finally, we propose a generic metadata modeling of video surveillance metadata integrating metadata describing the movement and field of view of cameras, metadata from content analysis algorithms, and metadata from contextual information, in order to complete the metadata dictionary of the ISO 22311/IEC 79 standard, which aims to provide a common format to export data extracted from video surveillance systems. The experiments performed using the framework developed in this thesis showed the reliability of our approach in a real case and enabled the validation of our proposals

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Recherche intelligente d'informations géographiques à partir des toponymes, des métadonnées et d'une ontologie : application aux forêts du Bassin congolais

Author: Massala Marius
Publication venue: HAL CCSD
Publication date: 25/01/2013
Field of study

Classified as tropical forests, the forests of the Congo basin is a huge of ecological sanctuary worthy of conservation that is second only to the Amazon in South America. States funded the development of big budget, combined with rapid urbanization and population growth, accompanied environmental problems are acute. It is in this context that our thesis comes. Our objective was to propose a methodology that aims to establish a mechanism for finding information on the internet for the countries of this region. The use of metadata, and ontology names appeared as one of the potential ways that can help in solving problems in the dynamic followed by space objects and efficient access to their information resources. Unlike other models, we propose that binds the spatiotemporal objects with those of their names and allows the description of information resources based on keywords from the ontology and the index of names.Classées parmi les forêts tropicales, les forêts du bassin du Congo constituent un immense sanctuaire écologique digne de conservation que l'on classe juste derrière l'Amazonie en Amérique du sud. Le développement des États financé à grands budget, conjugué à l'urbanisation galopante et à l'augmentation de la population, s'accompagnent de problèmes environnementaux qui se posent avec acuité. C'est dans ce contexte que s'inscrivent nos travaux de thèse. Notre objectif a été de proposer une méthodologie qui vise à mettre en place un mécanisme de recherche des informations via internet pour les pays de cette région. L'utilisation des métadonnées, des toponymes et d'une ontologie a paru l'une des pistes potentielles pouvant aider à la résolution des problèmes rencontrés dans le suivi de la dynamique des objets spatiaux ainsi que l'accès efficace à des ressources informationnelles. A la différence des autres modèles, celui que nous proposons lie la dynamique spatio-temporelle des objets à celle de leurs toponymes et permet la description des ressources informationnelles à partir de mots clé provenant de l'ontologie et de l'index des toponymes

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Système expert de modélisation des effets domino entre réseaux de support à la vie

Author: Pellet Romain
Publication venue
Publication date: 01/12/2009
Field of study

Du fait de l'accroissement de la dépendance des sociétés actuelles vis-à-vis des Réseaux de Support à la Vie (RSV), leur vulnérabilité en est que plus importante. En effet, les RSV sont les entités qui fournissent à nos sociétés les ressources essentielles à leur bon fonctionnement (eau, gaz naturel, électricité, liens téléphoniques, etc.), sont fortement interdépendants les uns des autres. Ainsi, lorsque qu'un RSV devient défaillant, il peut entraîner la défaillance d'un autre RSV qui utilise sa ressource ou qui se trouve géographiquement proche de ce dernier. Cela peut alors entraîner la défaillance d'autres réseaux. Cette défaillance en cascade de réseau en réseau est caractéristique d'un Effet Domino (ED) et peut amener à la paralysie totale de l’environnement socio-économique. Devant la nécessité de protéger les RSV et donc de diminuer la vulnérabilité de nos sociétés et les risques de défaillances associés, il est important d’élargir les connaissances concernant les interdépendances entre les RSV et les ED engendrés. Ainsi, le Centre risque & performance (CRP) de l’École Polytechnique de Montréal mène depuis une dizaine d’années des travaux de recherche dans ce domaine. De 2005 à 2008, il a pu développer, à l’aide de multiples partenaires industriels et gouvernementaux, une méthodologie simple et efficace permettant l’identification et l’anticipation des ED entre les RSV. Fort de ce résultat, le CRP mène actuellement un projet de recherche visant le développement d’un Système d’Alerte Précoce (SAP) permettant l’anticipation et la gestion en temps réel des interdépendances entre les RSV. Les travaux de recherche présentés dans ce mémoire portent sur le développement et la validation d’un outil qui sera intégré dans le SAP : un Système Expert (SE) de modélisation des ED entre les RSV. La méthodologie employée pour développer ce SE est composée de plusieurs tâches distinctes. Dans un premier temps, il est nécessaire de structurer une Base de Connaissances (BC) ou base de données, contenant l’ensemble des connaissances et des expertises concernant les interdépendances et détenues par les experts des RSV. Ensuite, il faut entreprendre l’analyse des besoins exprimés par les futurs utilisateurs du SE, c’est à dire les responsables des RSV et les gestionnaires du Centre de Sécurité Civile (CSC) de la ville de Montréal et du Bureau de la Sécurité Civile (BSC) de la ville de Québec. Le logiciel MS Access a été choisi comme plateforme informatique pour développer le SE. L’architecture de l’outil a alors été établie, pour ensuite pouvoir développer le SE.---------- ABSTRACT The increasing dependence of our societies towards Lifeline Networks (LN) increases their vulnerability. LN, which are entities that provide to the society the resources essential for their proper functioning (water, gas, electricity, telephone links, etc.), are highly dependent on each other. Thus, when a disturbance affects a LN, this may cause the failure of another LN whether because it uses its resource or because it is geographically located close to it. This can then cause the failure of other networks. These cascading failures are characteristic of a Domino Effect (DE) that could lead to total paralysis of the socio-economic environment. The necessity of protecting LN and, thus, to reduce the vulnerability of our societies and the associated risks of failure are incentive to expand our knowledge of interdependencies between LN. In this context, the Centre risque & performance (CRP) of the École Polytechnique de Montréal has led since a decade important researches in this specific area of study. From 2005 to 2008, the CRP was able to develop, along with multiple industrial and governmental partners, a simple, but yet very effective, methodology for identifying and anticipating DE between LN. Following this result, the CRP is currently conducting a research project aiming at developing an Early Warning System (EWS), allowing real-time management of interdependencies between RSV. The research presented in this paper focuses on developing and validating an Expert System (ES) which will eventually be integrated as the backbone of the EWS. The methodology used to develop this ES is composed of several distinct tasks. Initially, it is necessary to structure and simplify the Knowledge Base (KB) containing all the knowledge and expertise held by experts of the different LN and necessary to identify and anticipate DE. Then, an analysis of the needs expressed by the eventual users of the ES must undertake. The software MS Access was chosen as the platform for developing the ES. Then, the architecture of the tool was established and the ES was programmed. Finally, a phase of tests and validations of the ES was initiated to ensure that the needs of the future users of the system were satisfied

PolyPublie

Contribution à la modélisation des métadonnées associées aux documents multimédias et à leur enrichissement par l’usage

Author: Manzat Ana-Maria
Publication venue
Publication date: 05/02/2013
Field of study

De nos jours, ce ne sont pas que les collections multimédias qui deviennent de plus en plus volumineuses, mais aussi les métadonnées qui les décrivent. L’extraction des métadonnées est très coûteuse en consommation de ressources. Cela pose le problème de la gestion efficace de ces grands volumes de données, en minimisant cette consommation. Le fait que les utilisateurs sont en constante interaction avec les documents multimédias et les métadonnées complique encore plus cette gestion. Dans cette thèse, nous étudions le problème de la gestion de métadonnées en intégrant les interactions des utilisateurs à deux niveaux: dans le processus de création de métadonnées et dans leur enrichissement. La grande variété de standards et normes de métadonnées existants ne sont pas interopérables. Les solutions proposées à ce problème d’interopérabilité se sont focalisées sur la création d’ontologies qui décrivent les contenus multimédias du point de vue sémantique, sans forcément prendre en compte les standards de métadonnées et d’autres informations de plus bas niveau sur les documents. Pour résoudre ce problème nous proposons un format de métadonnées qui intègre les standards et normes les plus utilisés et qui est flexible et extensible en structure et en vocabulaire. Dans le cadre d’un système de gestion des contenus multimédias, le processus d’indexation est celui qui consomme le plus de ressources, à travers les algorithmes d’indexation qui extraient les métadonnées. Dans les systèmes classiques, cette indexation est accomplie avec un ensemble d’algorithmes d’indexation figé dans le temps, sans se soucier de la consommation des ressources ni de l’évolution des besoins de l’utilisateur. Pour prendre en compte les besoins que l’utilisateur spécifie dans sa requête, afin de n’extraire que les métadonnées nécessaires et ainsi limiter d’un côté le volume de métadonnées à gérer et de l’autre la consommation des ressources, nous proposons de répartir le processus d’indexation en deux phases: une fois à l’acquisition des contenus (indexation implicite), et une deuxième fois, si besoin, au moment de l’exécution de la requête de l’utilisateur (indexation explicite) en ayant recours à une liste d’algorithmes d’indexation déterminée principalement en fonction de la requête de l’utilisateur. L’utilisateur est de plus en plus pris en compte dans les systèmes multimédias à travers ses interactions avec le système et le document. Nous proposons d’aller plus loin dans la prise en compte de l’utilisateur, en considérant ses interactions avec les différentes parties du document mais aussi avec les métadonnées qui décrivent le document. Cela a été réalisé à travers l’extension du format de métadonnées proposée, par l’ajout d une température à chaque élément du format, qui varie dans le temps, étant calculée en fonction de la façon dont l’utilisateur interagit avec le document, mais aussi avec les métadonnées dans une période de temps. Nous avons validé nos propositions dans deux domaines différents: la vidéo surveillance et le commerce électronique. Le projet LINDO nous a permis la validation du format des métadonnées et de la sélection des algorithmes d’indexation dans le cadre de l’indexation explicite, dans le cadre de la vidéo surveillance. Dans le domaine du commerce électronique, nous avons exploité les interactions des utilisateurs réels avec un site de vente en ligne pour calculer la température des métadonnées associées aux pages du site pendant une période de deux mois. Nous avons utilisé cette température pour réaliser le reclassement des résultats obtenus pour une requête de l’utilisateur. Nous avons réalisé un test utilisateur sur une vingtaine de personnes. Ce test montre que pour certaines requêtes de l’utilisateur ce reclassement des résultats aide les utilisateurs à trouver les informations recherchés plus vite. Ce travail a permis de répondre au problème de la prise compte de l’utilisateur dans le processus de gestion des documents multimédias, en proposant: un modèle de métadonnées qui intègre les standards de métadonnées les plus utilisés; l’indexation différée des contenus multimédias (indexation implicite et explicite); l’enrichissement des métadonnées en considérant les interactions des utilisateurs avec le système, les documents multimédias et les métadonnées

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

Open Archive Toulouse Archive Ouverte

Représentation multi-facette des documents pour leur accès sémantique

Author: Ralalason Bachelin
Publication venue
Publication date: 30/09/2010
Field of study

La recherche d'information (RI) est un domaine prépondérant dans la vie contemporaine car elle permet de disposer d'éléments d'informations qui permettent d'agir et de prendre des décisions face à une situation donnée. En effet, l'objectif d'une RI est de s'informer, d'apprendre de nouvelles notions que nous ne maîtrisons pas. La disponibilité et la pertinence de ces nouvelles informations ont donc une très grande influence sur la prise de décision. La plupart des moteurs de recherche actuels utilisent des index regroupant les mots représentatifs des documents afin de permettre leur recherche ultérieure. Dans ces méthodes, les documents et les requêtes sont considérées comme des sacs de mots, non porteurs de sens. L'une des méthodes innovantes actuelles est l'indexation et la recherche sémantique des documents. Il s'agit de mieux prendre en compte le besoin de l'utilisateur en considérant la sémantique des éléments textuels. Nous nous intéressons à cet aspect de la RI en considérant une indexation et une recherche à base d'ontologies de domaine. Les solutions que nous proposons visent à améliorer la pertinence des réponses d'un système par rapport au thème de la recherche. Le discours contenu dans un document ou dans une requête ne sont pas les seuls éléments à prendre en compte pour espérer mieux satisfaire l'utilisateur. D'autres éléments relatifs au contexte de sa recherche doivent aussi être pris en compte. La granularité des informations à restituer à l'utilisateur est un autre aspect. Nous nous sommes intéressés à ces différents aspects et avons développé un méta-modèle de représentation multi-facette des documents en vue de leur accès sémantique. Dans notre modèle, le document est vu selon différentes dimensions dont la structure logique, la structure physique, la sémantique des contenus ainsi que leurs évolutions dans le temps. Nous avons également proposé des mesures de similarité sémantique entre concepts et une fonction de similarité entre les graphes d'annotation des requêtes et ceux des documents. Pour évaluer et valider nos solutions, nous avons instancié ce modèle dans trois domaines distincts : l'apprentissage en ligne, la maintenance automobile et les partitions musicales Braille. Nous avons également évalué les résultats en termes de rappel/précision des fonctions que nous avons proposées et montré leur supériorité par rapport à l'état de l'art.Information retrieval is part of our contemporary life because it helps us to find information which helps us in acting and decision making. Indeed, the objective of any information retrieval task is to learn new facts, new notions. Thus, the availability and relevance of the pieces of new information we access have a high influence on decisions we make. Most of the current search engines use indexes composed of the representative words from the documents; these indexes allow their access when compared to users' queries. These techniques consider documents and queries as bags of words but not the discourse they contain. One of the new methods to face the understanding of user's needs is semantic indexing and retrieval. In this thesis, we consider semantic indexing when based on ontologies that gather the domain knowledge. Matching content is not the only aspects that interest the user when searching for information. We consider other aspects such as the granularity of the elements to retrieve, the meta-data that can be associated with contents and the context in which the search is made. We consider these different aspects and propose a generic model based on a multi-facet representation. The facet related to document content is deeply studied. We made proposition related to semantic retrieval based on graph concepts and suggested a family of concept similarity functions and a graph similarity function that allow to compare graph concepts from documents and from queries. The dynamic aspect of the document collection has also been studied. To validate this model we considered three application domains: e-learning, automobile diagnostic and Braille musical scores. We also evaluate our semantic similarity functions in terms of recall and precision and show their effectiveness

Thèses en Ligne

Scientific Publications of the University of Toulouse II Le Mirail

HAL Descartes

Thèses en ligne de l'Université Toulouse III - Paul Sabatier

Développement de méthodes d'intégration de données biologiques à l'aide d'Elasticsearch

Author: Ongaro-Carcy Régis
Publication venue
Publication date
Field of study

En biologie, les données apparaissent à toutes les étapes des projets, de la préparation des études à la publication des résultats. Toutefois, de nombreux aspects limitent leur utilisation. Le volume, la vitesse de production ainsi que la variété des données produites ont fait entrer la biologie dans une ère dominée par le phénomène des données massives. Depuis 1980 et afin d'organiser les données générées, la communauté scientifique a produit de nombreux dépôts de données. Ces dépôts peuvent contenir des données de divers éléments biologiques par exemple les gènes, les transcrits, les protéines et les métabolites, mais aussi d'autres concepts comme les toxines, le vocabulaire biologique et les publications scientifiques. Stocker l'ensemble de ces données nécessite des infrastructures matérielles et logicielles robustes et pérennes. À ce jour, de par la diversité biologique et les architectures informatiques présentes, il n'existe encore aucun dépôt centralisé contenant toutes les bases de données publiques en biologie. Les nombreux dépôts existants sont dispersés et généralement autogérés par des équipes de recherche les ayant publiées. Avec l'évolution rapide des technologies de l'information, les interfaces de partage de données ont, elles aussi, évolué, passant de protocoles de transfert de fichiers à des interfaces de requêtes de données. En conséquence, l'accès à l'ensemble des données dispersées sur les nombreux dépôts est disparate. Cette diversité d'accès nécessite l'appui d'outils d'automatisation pour la récupération de données. Lorsque plusieurs sources de données sont requises dans une étude, le cheminement des données suit différentes étapes. La première est l'intégration de données, notamment en combinant de multiples sources de données sous une interface d'accès unifiée. Viennent ensuite des exploitations diverses comme l'exploration au travers de scripts ou de visualisations, les transformations et les analyses. La littérature a montré de nombreuses initiatives de systèmes informatiques de partage et d'uniformisation de données. Toutefois, la complexité induite par ces multiples systèmes continue de contraindre la diffusion des données biologiques. En effet, la production toujours plus forte de données, leur gestion et les multiples aspects techniques font obstacle aux chercheurs qui veulent exploiter ces données et les mettre à disposition. L'hypothèse testée pour cette thèse est que l'exploitation large des données pouvait être actualisée avec des outils et méthodes récents, notamment un outil nommé Elasticsearch. Cet outil devait permettre de combler les besoins déjà identifiés dans la littérature, mais également devait permettre d'ajouter des considérations plus récentes comme le partage facilité des données. La construction d'une architecture basée sur cet outil de gestion de données permet de les partager selon des standards d'interopérabilité. La diffusion des données selon ces standards peut être autant appliquée à des opérations de fouille de données biologiques que pour de la transformation et de l'analyse de données. Les résultats présentés dans le cadre de ma thèse se basent sur des outils pouvant être utilisés par l'ensemble des chercheurs, en biologie mais aussi dans d'autres domaines. Il restera cependant à les appliquer et à les tester dans les divers autres domaines afin d'en identifier précisément les limites.In biology, data appear at all stages of projects, from study preparation to publication of results. However, many aspects limit their use. The volume, the speed of production and the variety of data produced have brought biology into an era dominated by the phenomenon of "Big Data" (or massive data). Since 1980 and in order to organize the generated data, the scientific community has produced numerous data repositories. These repositories can contain data of various biological elements such as genes, transcripts, proteins and metabolites, but also other concepts such as toxins, biological vocabulary and scientific publications. Storing all of this data requires robust and durable hardware and software infrastructures. To date, due to the diversity of biology and computer architectures present, there is no centralized repository containing all the public databases in biology. Many existing repositories are scattered and generally self-managed by research teams that have published them. With the rapid evolution of information technology, data sharing interfaces have also evolved from file transfer protocols to data query interfaces. As a result, access to data set dispersed across the many repositories is disparate. This diversity of access requires the support of automation tools for data retrieval. When multiple data sources are required in a study, the data flow follows several steps, first of which is data integration, combining multiple data sources under a unified access interface. It is followed by various exploitations such as exploration through scripts or visualizations, transformations and analyses. The literature has shown numerous initiatives of computerized systems for sharing and standardizing data. However, the complexity induced by these multiple systems continues to constrain the dissemination of biological data. Indeed, the ever-increasing production of data, its management and multiple technical aspects hinder researchers who want to exploit these data and make them available. The hypothesis tested for this thesis is that the wide exploitation of data can be updated with recent tools and methods, in particular a tool named Elasticsearch. This tool should fill the needs already identified in the literature, but also should allow adding more recent considerations, such as easy data sharing. The construction of an architecture based on this data management tool allows sharing data according to interoperability standards. Data dissemination according to these standards can be applied to biological data mining operations as well as to data transformation and analysis. The results presented in my thesis are based on tools that can be used by all researchers, in biology but also in other fields. However, applying and testing them in various other fields remains to be studied in order to identify more precisely their limits

CorpusUL