30 research outputs found

    Courbes remplissant l'espace et leur application en traitement d'images

    Get PDF
    The space-filling curves are known for the ability to order the multidimensional points on a line while preserving the locality, i.e. the close points are closely ordered on the line. The locality preserving is wished in many applications. Hilbert curve is the best locality preserving space-filling curve. This curve is originally proposed in 2D, i.e. it is only applied to points in a 2D space. For application in the multidimensional case, we propose in this thesis a generalization of Hilbert curve. Generalized curve is based on the essential property of Hilbert curve that creates its level of locality preserving: the adjacency. Thus, it avoids the dependence on the pattern RBG, which is the only pattern of the curve extended by previous researches. The result is a family of curves preserving well the locality. The optimization of the locality preserving is also addressed to find out the best locality preserving curve. For this purpose, we propose a measure of the locality preserving. Based on the parameters, this measure can adapt to different application situations such as the change of metric or locality size. The curve construction is an important part of the thesis. It is the basis of the index calculation used in application. For a rapid index calculation, the self-similar Hilbert curves is used. They are Hilbert curves satisfying the self-similar conditions specified in chapitre 4. The generalized curve is finally applied in image search. It is the question of the content-based image search (CBIR) where each image is characterized by a multidimensionalvector. Images are ordered by the curve of a line, and the search is simplified to the search on an ordered list. By giving an input image, similar images are those corresponding to neighbors of the index of the input. The locality preserving ensures that these indexes correspond to similar images.Les courbes remplissant l'espace sont connues pour la capacité d'ordonner les points multidimensionnels sur une ligne en tout conservant la localité, i.e. les points proches sont toujours proches sur la ligne. La conservation de la localité est beaucoup recherchée dans plusieurs applications. La courbe de Hilbert est la courbe remplissant l'espace qui conserve le mieux la localité. Cette courbe est originalement proposée en 2D, i.e. n'est qu'applicable aux points dans un espace 2D. Pour une perspective d'application dans le cas multidimensionnel, nous proposons dans cette thèse une généralisation de la courbe de Hilbert. La courbe généralisée est définie en s'appuyant sur la propriété essentielle de la courbe de Hilbert qui crée son niveau de conservation de la localité : l'adjacence. Ainsi, elle évite la dépendance du motif primitif RBG qui est le seul motif primitif de la courbe étendu par les recherches précédentes. Le résultat est donc une famille de courbe conservant bien la localité. L'optimisation de la conservation de la localité est aussi abordée pour permettre de retrouver la courbe qui conserve le mieux la localité. Pour cet objectif, nous proposons une mesure de la conservation de la localité. En s'appuyant sur les paramètres, cette mesure peut adapter aux différentes situations applicatives comme le changement de métrique ou de taille de localité. La construction est une partie importante de la thèse, elle est la base du calcul de l'index utilisé dans l'application. Pour un calcul de l'index rapide, la courbe de Hilbert autosimilaire est utilisée. La courbe de Hilbert satisfaisant les conditions de la courbe fait l'objet du chapitre 4. La courbe généralisée est enfin appliquée dans la recherche d'image. Il s'agit d'une recherche par le contenu où chaque image est caractérisée par un vecteur multidimensionnel. Les images sont ordonnées par la courbe sur une ligne ; ainsi, la recherche est simplifiée en une recherche sur une liste ordonnée. En donnant une image d'entrée, les images similaires sont celles correspondantes aux index voisins de l'index de l'image d'entrée. La conservation de la localité garantit que ces index correspondent aux images similaires

    Dépendances fonctionnelles (extraction et exploitation)

    Get PDF
    Les dépendances fonctionnelles fournissent une information sémantique sur les données d une table en mettant en lumière les liens de corrélation qui les unient. Dans cette thèse, nous traitons du problème de l extraction de ces dépendances en proposant un contexte unifié permettant la découverte de n importe quel type de dépendances fonctionnelles (dépendances de clé, dépendances fonctionnelles conditionnelles, que la validité soit complète ou approximative). Notre algorithme, ParaCoDe, s exécute en parallèle sur les candidats, réduisant ainsi le temps global de calcul. De ce fait, il est très compétitif vis-à-vis des approches séquentielles connues à ce jour. Les dépendances satisfaites sur une table nous servent à résoudre le problème de la matérialisation partielle du cube de données. Nous présentons une caractérisation de la solution optimale dans laquelle le coût de chaque requête est borné par un seuil de performance fixé préalablement et dont la taille est minimale. Cette spécification de la solution donne un cadre unique pour décrire et donc comparer formellement les techniques de résumé de cubes de données.Functional dependancies provide a semantic information over data from a table to exhibit correlation links. In this thesis, we deal with the dependancy discovery problem by proposing a unified context to extract any type of functional dependencies (key dependencies, conditional functional dependencies, with an exact or an approximate validity). Our algorithm, ParaCoDe, runs in parallel on candidates there by reducing the global time of computations. Hence, it is very competitive comparated to sequential appoaches known today. Satisfied dependencies on a table are used to solve the problem of partial materiali-zation of data cube. We present a characterization of the optimal solution in which the cost of each query is bounded by a before hand fixed performance threshold and its size is minimal. This specification of the solution gives a unique framework to describe and formally compare summarization techniques of data cubes.BORDEAUX1-Bib.electronique (335229901) / SudocSudocFranceF

    Étude comparative des algorithmes dédiés à la classification

    Get PDF

    Classification de mots-clés des campagnes publicitaires sur les moteurs de recherche et calcul de prévisions

    Get PDF
    RÉSUMÉ : Les publicités sur le web qui se présentent sous forme de liens textuels s’affichent dans les pages de résultats des moteurs de recherche, suite aux requêtes des internautes par le biais des mots-clés achetés par les annonceurs via un système d’enchères. Communément, les premières pages du moteur de recherche offrent aux annonceurs de promouvoir les produits et services. Quand une annonce s’affiche et qu’un internaute clique sur le lien correspondant, l’entreprise en question paie le moteur de recherche. Afin de gérer son budget, une entreprise doit établir des stratégies d’enchères; sélectionner un ensemble de mots-clés et déterminer un montant pour chaque mot-clé. Les données historiques de ces mots-clés sont évidemment nécessaires pour évaluer le comportement des requêtes des internautes sur les moteurs de recherches. Les travaux présentés dans ce mémoire sont une suite d’un thème de recherche dont l’objectif est de développer des algorithmes permettant d’améliorer le rendement des campagnes publicitaires sur les moteurs de recherche. Dans cette optique un algorithme permettant d’affecter des positions optimales aux mots-clés est développé de sorte que le nombre total de clics par campagne est maximisé. En outre, une méthode de génération de courbes génériques est proposée pour chaque mot-clé afin d’effectuer une prédiction à la fois du nombre de clics et du coût par clic en fonction de sa position. Ces paramètres sont essentiels au programme d’optimisation. Nous présentons une approche de classification basée sur les techniques de data mining pour l’extraction des connaissances cachées dans une base de données de mots-clés. Le but est de déceler des comportements similaires au niveau des mots-clés et de les classifier par la suite. Si la classification des mots-clés est optimale, on estime pouvoir obtenir des courbes génériques de meilleure qualité. Notre stratégie utilise beaucoup d'échantillons composés de différentes campagnes dans différents types de marché sur le Web. Cette stratégie nous permet de conclure, lors de la classification automatique, que le nombre de classes de mots-clés est approprié pour toutes les campagnes publicitaires. Nous exploitons divers méthodes de classifications automatiques pour une meilleure organisation des mots-clés selon leurs caractéristiques. Parmi les algorithmes cités dans le présent document il y a : k-means, fuzzy c-means, Clara, Clues et Pam. Les résultats obtenus lors de la classification non supervisée se sont avérés en deçà de nos attentes. Toutefois, notre mandat ne s’arrête pas là, on doit améliorer les courbes génériques existantes. Une évaluation expérimentale basée sur nos données montre que notre approche améliore modestement la précision des paramètres. Cependant, nous n’affirmons pas nécessairement que les résultats ainsi obtenus soient concrets car aucune de nos expériences pratiques n’a été conduite en temps réel sous le moteur de recherche Google.----------ABSTRACT : Web advertisements that are in the form of text links are displayed in the results pages of search engines through internauts requests via keywords purchased by advertisers via an auction system. Commonly, the first pages of search engine offer advertisers to promote products and services. When an ad displays and a user clicks on it, the company in question pays the search engine. To manage its budget, a company must establish bid strategies; select a set of keywords and determine an amount for each keyword. Obviously, historical data on such keywords are needed to assess the behavior of users by their entry into the search engine query. The work presented in this thesis is part of a series of research aimed at developing algorithms to improve the performance of advertising campaigns on search engines. In this context, we propose an algorithm that assigns optimal keywords positions so that the total number of clicks per campaign is maximized. Furthermore, a generic method of generating curves is proposed for each keyword to make a prediction of the number of clicks and estimate the cost per click according to its position. These parameters are critical to the optimization program. We present a classification approach, based on data mining techniques, in order to extract hidden information in data warehouse keywords in order to identify similar behaviors of keywords and classify them thereafter. An improved classification of keywords is estimated to lead to better generic curves. Our strategy uses a lot of samples from different campaigns with different types of market on the web. This strategy allows us to conclude, during the automatic classification, that the number of classes of keywords is appropriate for all campaigns. We used various methods of automatic classifications for better organization of keywords according to their characteristics. Among the algorithms mentioned in this document there are: k-means, fuzzy c-means, clustering large application, clustering based on local shrinking and partitioning around medoïds. The results obtained in the automatic classification proved to lower our expectations. However, our mandate does not stop there; we must improve existing generic curves. Experimental evaluation based on data provided showed that our approach modestly improves the accuracy of parameters. However, we cannot say that the results are real because we have not done a practical experience in real time on the Google search engine

    AGEWEB : les agents personnels d'aide à la recherche documentaire sur le Web

    Get PDF

    Une approche coopérative décentralisée basée agent et CSP pour l’allocation des ressources dans le cloud computing

    Get PDF
    L’évolution de Cloud Computing permet d'apporter des nouveaux défis relatifs à l’exploitation des services à la demande du cloud Computing tels que : calcul, stockage, réseau. En effet, plusieurs heuristiques sont proposées pour maintenir les systèmes d’allocation des ressources de cloud computing et répondent aux ces défis d'une manière transparente et efficace. Dans ce contexte, nous abordons le problème d'allocation des ressources dans le cloud. Nous proposons une approche d'allocation des ressources qui vise à explorer deux objectifs d'optimisation d’allocation des ressources. Premièrement, il équilibre les différentes particularités de l'infrastructure de cloud, y compris l'équilibrage de charge, ce qui améliore les performances de l'infrastructure. Deuxièmement, notre approche fournit une solution aux besoins du client en minimisant le temps d'exécution et en réduisant les paiements des ressources demandées qui ont une nature dynamique. Dans cette thèse, Nous proposons une approche d'allocation de ressources hybride basée sur trois méthodes : le système multi-agents (SMA), le problème de satisfaction de contraintes distribuées (PSCD) et la logique floue (LF). Dont le SMA représente l'infrastructure physique du cloud et permet une gestion efficace des ressources dans la distribution et l'hétérogénéité de cette infrastructure. PSCD, d'autre part, travaille côte à côte avec SMA pour maintenir les politiques d'allocation des ressources dans les centres de données, tandis que LF est utilisée pour faciliter la représentation des valeurs de ressources dynamiques en termes linguistiques (faible, moyen, élevé ...) et aide le système à déterminer la meilleure solution selon les critères dans les demandes des clients

    Les index bitmap compressés

    Get PDF
    Les index bitmap sont très utilisés dans les moteurs de recherche et les bases de données pour accélérer les opérations de recherche. Leurs principaux avantages sont leur forme compacte et leur capacité à tirer profit du traitement parallèle de bits dans les CPU (bit-level parallelism). Lorsque employés sur des attributs de faibles cardinalités, l'efficacité des index bitmaps en matière d'occupation d'espace mémoire et de temps de traitements comparé aux autres types d'index classiques, tels que l'arbre-B, est largement reconnue dans la littérature. Cependant, plus la cardinalité d'un attribut s'élève plus la taille et les temps de traitements de son index bitmap augmentent jusqu'à consommer plus d'espaces mémoires que les données indexées et d'importants temps de calculs. Afin de maintenir l'efficacité de ces solutions d'indexation dans ces conditions- là, plusieurs chercheurs ont proposé des travaux dans le but de réduire la taille et améliorer les temps de traitement de bitmaps indexant des attributs de larges cardinalités. Les solutions proposées dans la littérature adressant cette problématique se divisent en trois catégories : le paquetage des bitmaps, l'encodage des bitmaps et la compression des bitmaps. Les contributions proposées dans cette thèse se classent parmi la troisième catégorie. Après avoir constaté que la plupart des techniques de compression de bitmaps introduites ces 15 dernières années se basent sur le modèle de la solution WAH, qui combine une compression par plages de valeurs avec une représentation bitmap sous forme de chaînes de bits alignées par mots CPU, cette thèse propose la technique Roaring bitmap, qui adopte un nouveau modèle pour compresser les bitmaps. Cette méthode discrétise l'espace des entiers représentés par un bitmap en des partitions de taille fixe, puis applique sur chacune une forme de compression appropriée selon la densité du groupe d'entiers. Des expériences ont été conduites pour comparer les performances temps-espace du nouveau modèle avec ceux de deux autres solutions de compression bitmap parmi les plus connues dans la littérature : WAH et Concise. Les résultats ont montré que, sur des faibles densités, la nouvelle méthode ne consomme que ≈ 50% de l'espace mémoire occupé par Concise et ≈ 25% de celui de WAH. Aussi, Roaring bitmap a pu accélérer les temps de calcul d'opérations logiques par rapport aux deux autres techniques sur tous les tests effectués, en étant de 4 à 5 fois plus performant sur des données synthétiques, et jusqu'à 1100 fois plus rapide sur des données réelles. La librairie de Roaring bitmap et celles des autres solutions adoptant le modèle WAH qui sont disponibles au grand public ne supportent que des bitmaps d'au plus 232 (≈ 4 milliards) entrées. Avec l'avènement du Big Data, le besoin d'indexer de très larges collections de données sur lesquelles de telles librairies se révèlent impraticables est souvent rencontré. Les ingénieurs du moteur de recherche Apache Lucene ont rencontré ce problème, et ont introduit la solution OpenBitSet, qui peut allouer des bitmaps avec jusqu'à 64 x 232 – 1 entrées. Cependant, cette solution reste simple et n'applique aucune forme de compression sur les bitmaps. La présente thèse propose trois nouveaux modèles de compression bitmap basés sur le format de Roaring bitmap et qui peuvent indexer jusqu'à 264 entrées. Des expériences sur des données synthétiques comparant les performances des trois nouveaux modèles avec la solution d'Apache Lucene, OpenBitSet, et d'autres collections Java du paquetage Java.Util : ArrayList, LinkedList, HashSet et TreeSet, ont montré qu'OpenBitSet et les collections Java consomment, respectivement, jusqu'à ≈ 300 millions de fois et ≈ 1800 fois plus d'espaces mémoire comparés aux trois nouveaux modèles. Ces derniers ont également calculé des intersections entre deux ensembles d'entiers, ≈ 6 millions de fois, ≈ 63 milles fois et ≈ 6 fois plus rapidement par rapport à OpenBitSet, aux deux collections ArrayList et LinkedList, et aux deux structures HashSet et TreeSet, respectivement. En évaluant les temps pour calculer l'union de deux ensembles d'entiers, les nouvelles méthodes ont été jusqu'à ≈ 3 millions de fois plus performantes qu'OpenBitSet. Aussi, cette dernière structure de données a été jusqu'à ≈ 14 millions de fois plus lente pour insérer un entier généré aléatoirement que les trois solutions proposées. Afin de valider le format de la solution Roaring bitmap dans un SGBD réel, cette technique d'indexation a été intégrée au moteur OLAP Druid. Ce système se base essentiellement sur des index bitmap compressés avec la technique Concise pour accélérer les temps de réponse de requêtes OLAP effectuant des analyses détaillées sur les données (drill-down). Des expériences sur des données réelles ont été réalisées pour évaluer les performances de Roaring bitmap et de Concise au sein du SGBD Druid. Les résultats ont montré que Roaring bitmap a amélioré de ≈ 2 fois les temps de réponse de requêtes d'agrégations et près de 5 fois le temps de traitements de requêtes de recherche comparé à la solution Concise.\ud ______________________________________________________________________________ \ud MOTS-CLÉS DE L’AUTEUR : index bitmap, compression, performances, opérations logiques, structures de données

    OPTIMISATION DE REQUETES DANS UN SYSTEME DE RECHERCHE D'INFORMATION<br />APPROCHE BASEE SUR L'EXPLOITATION DE TECHNIQUES AVANCEES DE L'ALGORITHMIQUE GENETIQUE

    Get PDF
    The thesis deals with the use of genetic algorithmes to tackle information retrieval issues. More precisely, our works focus on applying genetic algorithms for the design of adaptive information retrieval systems. First of all, we study various models in information retrieval and then highlight our contribution in this area. After this, we focus on genetic algorithms. We particularly show how to exploit their formal support and robistness in order to support query optimization approaches. Our specific approach consists in combining both relevance feedback evidence and genetic processing in order to refirmulate the querues. The proposed genetic algorithm is specifically devoted for information retrieval by designing enhanced genetic operators that tackle the multimodality relevance problem. The niching technique is applied to the whole population in order to involve a multi-optimization query through a cooperative approach.The experimental evaluation has been carried out using a TREC collection.Les travaux présentés dans cette thèse traitent des apports de l'algorithmique génétique à la conception de systèmes de recherche d'information adaptatifs aux besoins des utilisateurs.Notre étude se focalise en premier lieu, sur l'analyse des différents modèles et stratégies de représentation et de recherche d'information. Nous mettons notamment en évidence, leur contribution à la résolution des problèmes inhérents à la recherche d'information. En second lieu, notre intérêt s'est porté sur l'étude des algorithmes génétiques. Nous basant alors sur leur robustesse, théoriquement et expérimentalement prouvée, nous intégrons ces algorithmes à la mise en oeuvre de notre approche d'optimisation de requête.Nous présentons une approche de recherche d'information qui intègre une stratégie de reformulation de requête par injection de pertinence, fondée sur l'hybridation d'un processus d'optimisation génétique, à un modèle de recherche de base. Nous proposons un algorithme spécifique à la recherche d'information, par l'intégration d'opérateurs génétiques augmentés par la connaissance du domaine d'une part, et d'une heuristique permettant de résoudre le problème de multimodalité de la pertinence d'autre part. L'heuristique de nichage en l'occurrence, est diffusée globalement lors de l'évolution de l'AG. La population est alors organisée en niches de requêtes effectuant une recherche parallèle et coopérative d'informations.Nous évaluons enfin notre approche de recherche d'information, au travers d'expérimentations réalisées à l'aide du système Mercure, sur la collection de référence TREC
    corecore