104 research outputs found

    Virtual WWW Documents: a Concept to Explicit the Structure of WWW Sites

    Get PDF
    http://www.emse.fr/~beigbeder/PUBLIS/1999-BCS-IRSG-p185-doan-v1.pdfInternational audienceThis paper shows a new concept of a virtual WWW document (VWD), as a set of WWW pages representing a logical information space, generally dealing with one particular domain. The VWD is described using metadata in the XML syntax and will be accessed through a metadata.class file, stored at the root level of WWW sites. We'll suggest how the VWD can improve information retrieval on the WWW and reduce the network load generated by the robots. We describe a prototype implemented in JAVA, within an application in the environmental domain. The exchanges of such metadata lay in a flexible architecture based on two kinds of robots : generalists and specialists that collect and organize this metadata, in order to localize the resources on the WWW. They will contribute to the overall auto-organizing information process by exchanging their indices, therefore forwarding their knowledge each other

    Entanglement and Semantics : Application to Language Processing

    No full text
    International audienceA lexeme can be represented as a vector in a Hilbert space. Each element of the vector represents the weight of a semantic relation with a second vector: the context of a second lexeme. Two query operators are defined in a way that they attribute the value +1 to the component of the state that corresponds to the word meaning we are interested in, and -1 in the orthogonal direction. Entangled states have been used to detect semantic relationships in Information Retrieval (IR). In particular, since the first operator corresponds to negation and the conditional gate corresponds to an implication in classical logic, they can represent two basic semantic relationships : hyponymy (e.g. genus-species) and antonymy (e.g. masculine-feminine). In fact, according to Semantics, if A and B are antonymic terms, then A is an hyponym of (i.e. implies) not-B as in the Gremias semiotic square. We underline how the relations of a given semantic universe, and the corresponding result of our operators, depends only on the considered text. Among others, this analogy suggests the application of quantum-based models to language and IR

    Beyond Individual Input for Deep Anomaly Detection on Tabular Data

    Full text link
    Anomaly detection is crucial in various domains, such as finance, healthcare, and cybersecurity. In this paper, we propose a novel deep anomaly detection method for tabular data that leverages Non-Parametric Transformers (NPTs), a model initially proposed for supervised tasks, to capture both feature-feature and sample-sample dependencies. In a reconstruction-based framework, we train the NPT model to reconstruct masked features of normal samples. We use the model's ability to reconstruct the masked features during inference to generate an anomaly score. To the best of our knowledge, our proposed method is the first to combine both feature-feature and sample-sample dependencies for anomaly detection on tabular datasets. We evaluate our method on an extensive benchmark of tabular datasets and demonstrate that our approach outperforms existing state-of-the-art methods based on both the F1-Score and AUROC. Moreover, our work opens up new research directions for exploring the potential of NPTs for other tasks on tabular data

    Using Metadata to Improve Organization and Information Retrieval on the WWW

    Get PDF
    http://www.emse.fr/~beigbeder/PUBLIS/1998-webnet-pXXX-doan.pdfInternational audience: Until now the growing volume of heterogeneous and distributed information on the WWW makes increasingly difficult for the existing tools to retrieve relevant information. To improve the performance of these tools, we suggest to handle two aspects of the problem: One concerns a better representation and description of WWW pages, we introduce here a new concept of "WWW documents", and we describe them thanks to metadata. We'll use the Dublin Core semantics and the XML syntax to represent these metadata. We'll suggest how this concept can improve information retrieval on the WWW and reduce the network load generated by robots. Then, we describe a flexible architecture based on two kinds of robots : "generalists" and "specialists" that collect and organize these metadata, in order to localize the resources on the WWW. They will contribute to the overall auto-organizing information process by exchanging their indices

    La recherche d'informations sur le World Wide Web : utilisation des méta-informations dans une architecture de systèmes de recherche coopérants

    Get PDF
    Deux types d'outils de recherche sont actuellement utilisés pour aider l'utilisateur à trouver des informations sur le Web : les moteurs de recherche (Google) et les annuaires thématiques (Yahoo). Cependant les réponses sont fortement entachées de bruit pour les outils universels, et de silence pour les outils thématiques. De plus, le problème qui se pose est de suivre l'augmentation constante du volume de pages Web : la scalabilité. Pour réduire le bruit et le silence nous introduisons un niveau logique avec la notion de document Web au dessus du niveau physique matérialisé par les pages Web. Les documents Web sont organisés en DAG (Directed Acyclic Graph) et sont décrits par des méta-informations. Dans la hiérarchie de documents, nous utilisons la technique de propagation des attributs de méta-informations le long de la hiérarchie de documents. Ceci nous permet de diminuer à la fois le bruit et le silence en combinant des recherches qui portent sur les attributs de m éta-informations avec la recherche traditionnelle dans le texte intégral, tout en exploitant la structure logique des documents Web. Pour le problème de scalabilité, nous proposons une architecture fondée sur 2 nouvelles classes d'outils de recherche. Les outils généralistes ont vocation à parcourir, indexer et connaître tout le Web mais d'une façon superficielle, ils sont par exemple capables d'indiquer tous les sites dont un des domaines concerne l'environnement. Les outils spécialistes ont pour but de collationner et d'indexer toutes les pages de tous les sites d'un domaine de connaissance particulier (par exemple l'environnement). Nous proposons enfin un modèle de dialogue entre ces nouveaux composants permettant de fournir un service global qui adresse à la fois les problèmes de bruit, de précision et de scalabilité. Un spécialiste devient à son tour un document qui s'auto-décrit et participe à l'architecture des systèmes coopérants.No abstrac

    Impact of Contextual Information for Hypertext Document Retrieval

    No full text
    International audienceBecause the notion of context is multi-disciplinary, it encompasses lots of issues in Information Retrieval. In this paper, we define the context as the information surrounding one document that is conveyed via the hypertext links. We propose different measures depending on the information chosen to enrich a current document, in order to assess the impact of the contextual information on hypertext documents. Experiments were made over the TREC-9 collections and significant improvement of the precision shows the importance of taking ac-count of the contextual informatio

    Expérimentations sur un modèle de recherche d'information utilisant les liens hypertextes des pages Web

    No full text
    National audienceLa fonction de correspondance, qui permet de sélectionner et de classer les documents par rapport à une requête est un composant essentiel dans tout système de recherche d'information. Nous proposons de modéliser une fonction de correspondance prenant en compte à la fois le contenu et les liens hypertextes des pages Web. Nous avons expérimenté notre système sur la collection de test TREC-9, et nous concluons que pour certains types de requêtes, inclure le texte ancre associé aux liens hypertextes des pages dans la fonction de similarité s'avère plus efficace

    Evaluation d'un modèle de propagation de pertinence dépendant des termes de la requête sur les collections WT10g et Gov

    No full text
    National audienceNous proposons de modéliser la fonction de correspondance d'un système de recherche d'information en prenant en compte à la fois le contenu d'une page et le voisinage de cette page. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les pages en fonction des termes de la requête contenus dans ces pages. Nous avons expérimenté notre système sur deux collections de test WT10g et GOV. Nous concluons que notre fonction réalise de bons résultats par rapport à l'algorithme classique reposant sur le contenu seul de la page et celui de pagerank reposant sur la popularité de la page indépendamment des termes de la requête
    • …
    corecore