153 research outputs found

    Différentes notions de réponses pour un système d'interrogation de bases de graphes.

    Get PDF
    National audienceDe nombreuses bases de connaissance sémantiques utilisent des formalismes à base de graphes (graphes conceptuels, RDF, Topic Maps). L'interrogation de telles bases se fonde sur des langages qui pour la plupart expriment par un graphe requête les connaissances recherchées. Nous nous intéressons dans cet article aux réponses exprimées elles-aussi par des graphes et étudions le problème de la redondance entre réponses. Nous différencions les notions de réponse par sous-graphes de la base, de celles de réponse par création de graphes réponses et caractérisons un résultat de requête complet, minimal et sans redondance. Nous définissons également une notion de réponses contextualisées permettant de différencier les réponses grâce à leur voisinage dans la base

    E.L.E.N. : Un Système d'interrogation d'une base de logiciels

    No full text
    National audienceL'augmentation de la taille et de la durée de vie des logiciels fait ressortir certains problèmes liés à l'activité du génie logiciel parmi lesquels : la cohérence entre les documents et les logiciels, la gestion des versions, le morcellement de l'information parmi les participants au projet, la vérification et la correction du logiciel, la recherche de codes réutilisables, etc. Une gestion complète et uniforme des logiciels et de leurs documentations, ainsi que la possibilité d'interroger les informations ainsi gérées, permet de simplifier un certain nombre de ces problèmes. L'information de tout le projet est alors regroupée dans un même formalisme et elle est rapidement accessible grâce à un système d'interrogation. Ainsi il est plus aisé de produire un gros logiciel et d'en effectuer la maintenance. Le système ELEN (géniE logicieL et recherchE d'informatioNs) a donc pour objectif la gestion et l'interrogation des logiciels et de leurs documentations associées. Dans cet article, nous nous intéressons plus particulièrement à la fonction d'interrogation des codes sources, qui est fondée sur une extension du modèle des graphes conceptuels

    Un survol des recherches en génération automatique

    Get PDF

    Recherche d'information dans les images de documents

    Get PDF
    L'image de document est un objet intelligible qui véhicule de l'information et qui est défini en fonction de son contenu. Cette thèse présente trois modèles de repérage d'information et de recherche d'images pertinentes à la requête d'un utilisateur. Le premier modèle de repérage des zones informationnelles est basé sur l'analyse multi échelle traduisant le contraste visuel des régions sombres par rapport au fond de l'image. Chaque région extraite est définie à partir de son contenu et ses caractéristiques statistiques et géométriques. L'algorithme de classification automatique est amélioré par l'application de règles de production déduites des formes des objets extraits. Une première évaluation de l'extraction du texte, des logos et des photographies sur les images de l'équipe Média Team de l'Université de Washington (UW-1) montre des résultats encourageants. Le deuxième modèle est basé sur le texte obtenu par Reconnaissance Optique de Caractères (OCR). Des erreurs-grammes et des règles de production modélisant les erreurs de reconnaissance de l'OCR sont utilisées pour l'extension des mots de la requête. Le modèle vectoriel est alors appliqué pour modéliser le texte OCR des images de documents et la requête pour la recherche d'information (RI). Un apprentissage sur les images Média Team (UW-2) et des tests sur un millier d'images Web ont validé cette approche. Les résultats obtenus indiquent une nette amélioration comparés aux méthodes standards comme le modèle vectoriel sans l'expansion de la requête et la méthode de recouvrement 3-grams. Pour les zones non textuelles, un troisième modèle vectoriel, basé sur les variations des paramètres de l'opérateur multi-échelle SKCS(Separable Kernel with Compact Support) et une combinaison de classifieurs et d'analyse de sous-espace en composantes principales MKL (Multi-espace Karhunen-Loeve) est appliqué sur une base d'apprentissage d'images de documents de Washington University et de pages Web. Les expériences ont montré une supériorité de l'interprétation et la puissance des vecteurs d'indexations déduits de la classification et représentant les zones non textuelles de l'image. Finalement, un système hybride d'indexation combinant les modèles textuels et non-textuels a été introduit pour répondre à des requêtes plus complexes portant sur des parties de l'image de documents telles un texte, une illustration, un logo ou un graphe. Les expériences ont montré la puissance d'interrogation par des mots ou des images requêtes et ont permis d'aboutir à des résultats encourageants dans la recherche d'images pertinentes qui surpassent ceux obtenus par les méthodes traditionnelles comme révèle une évaluation des rappels vs. précision conduite sur des requêtes portant sur des images de documents

    SQL, NoSQL, NewSQL: stratégie de choix

    Get PDF
    Depuis les années 1980, les systèmes de gestion de bases de données relationnelles n'ont cessé de prendre de l'importance en regard des autres systèmes de gestion de données. Aujourd'hui, encore utilisés par la majorité des entreprises ils sont toujours appréciés pour leurs capacités à assurer une forte cohérence des données et garantir une fiabilité lors des transactions. Cependant, l'émergence des systèmes décisionnels et l'explosion des volumes de données à traiter ont conduit beaucoup de sociétés à dénormaliser leur modèle de données. Cette technique visant à regrouper l'information dans des agrégats a pour but d'optimiser les temps de réponses en rompant avec les trois formes normales si chères au SGBDR. Le Big data a conduit les grands acteurs de l'internet (Google, Facebook, et Amazon etc..) à développer puis adopter des technologies alternatives nommées NoSQL. Celles-ci leurs permettent de supporter une montée en charge horizontale tout en assurant une flexibilité du modèle de données. Dès lors, le NoSQL apparaît comme une solution à l'entreprise désirant gérer des montées en charges et des volumes importants. Cependant, cette technologie sacrifie à dessin la cohérence au bénéfice de la disponibilité. Dans ce modèle, les propriétés ACID sont souvent mises de côté pour la performance. En outre, la flexibilité offerte par le sans-schéma et l'abandon du SQL en font une technologie flexible et particulièrement appréciée des développeurs. Ils découvrent un SGBD où l'application devient maîtresse du schéma de la base de données. Plus d'interminables disputes avec un DBA qui impose un schéma non flexible de la base de données. La difficulté à gérer la faible cohérence des données pour les développeurs a conduit les grands ténors du web à développer le NewSQL. Ce nouveau SGBDR permet une scalabilité horizontale, une souplesse du schéma et une forte cohérence des données grâce à des transactions ACID. Le NewSQL est aussi jeune qu'il est plein de promesses. Il n'a pas le retour d'expérience des SGBDR et du NoSQL. Dans le document qui va suivre, sera cité les critères d'adoptions de chaque technologie. Ils seront mis ensemble à la fin dans un tableau de synthèse. Celui-ci pourra orienter la stratégie de choix d'une ou plusieurs d'entre elles

    Contribution à la gestion des données géographiques : Modélisation et interrogation par croquis

    Get PDF
    The Geographic Information Systems (GIS) require special needs to manage their content because they handle data structures are complex and heterogeneous. Such data are often difficult to describe in conventional queries or predicates are based on attributes. The freehand sketches (sketch) is a form of presentation that day was used to visualize, share and save the graphic information. It seems to be easily adaptable to present and examine a flexible GIS dataLes Systèmes d'Information Géographiques (SIG) réclament des besoins particuliers de gestion de leur contenu, parce qu'ils manipulent des données dont les structures sont complexes et hétérogènes. Ces données sont souvent difficiles à décrire par des requêtes classiques ou des prédicats basés sur des attributs. Le croquis à main levée (sketch) est une veille forme de présentation qui a été employée pour visualiser, échanger et enregistrer l'information graphique. Il semble être ainsi facilement adaptable pour présenter et interroger d'une manière flexible les données des SI
    • …
    corecore