104 research outputs found
Virtual WWW Documents: a Concept to Explicit the Structure of WWW Sites
http://www.emse.fr/~beigbeder/PUBLIS/1999-BCS-IRSG-p185-doan-v1.pdfInternational audienceThis paper shows a new concept of a virtual WWW document (VWD), as a set of WWW pages representing a logical information space, generally dealing with one particular domain. The VWD is described using metadata in the XML syntax and will be accessed through a metadata.class file, stored at the root level of WWW sites. We'll suggest how the VWD can improve information retrieval on the WWW and reduce the network load generated by the robots. We describe a prototype implemented in JAVA, within an application in the environmental domain. The exchanges of such metadata lay in a flexible architecture based on two kinds of robots : generalists and specialists that collect and organize this metadata, in order to localize the resources on the WWW. They will contribute to the overall auto-organizing information process by exchanging their indices, therefore forwarding their knowledge each other
Entanglement and Semantics : Application to Language Processing
International audienceA lexeme can be represented as a vector in a Hilbert space. Each element of the vector represents the weight of a semantic relation with a second vector: the context of a second lexeme. Two query operators are defined in a way that they attribute the value +1 to the component of the state that corresponds to the word meaning we are interested in, and -1 in the orthogonal direction. Entangled states have been used to detect semantic relationships in Information Retrieval (IR). In particular, since the first operator corresponds to negation and the conditional gate corresponds to an implication in classical logic, they can represent two basic semantic relationships : hyponymy (e.g. genus-species) and antonymy (e.g. masculine-feminine). In fact, according to Semantics, if A and B are antonymic terms, then A is an hyponym of (i.e. implies) not-B as in the Gremias semiotic square. We underline how the relations of a given semantic universe, and the corresponding result of our operators, depends only on the considered text. Among others, this analogy suggests the application of quantum-based models to language and IR
Beyond Individual Input for Deep Anomaly Detection on Tabular Data
Anomaly detection is crucial in various domains, such as finance, healthcare,
and cybersecurity. In this paper, we propose a novel deep anomaly detection
method for tabular data that leverages Non-Parametric Transformers (NPTs), a
model initially proposed for supervised tasks, to capture both feature-feature
and sample-sample dependencies. In a reconstruction-based framework, we train
the NPT model to reconstruct masked features of normal samples. We use the
model's ability to reconstruct the masked features during inference to generate
an anomaly score. To the best of our knowledge, our proposed method is the
first to combine both feature-feature and sample-sample dependencies for
anomaly detection on tabular datasets. We evaluate our method on an extensive
benchmark of tabular datasets and demonstrate that our approach outperforms
existing state-of-the-art methods based on both the F1-Score and AUROC.
Moreover, our work opens up new research directions for exploring the potential
of NPTs for other tasks on tabular data
Using Metadata to Improve Organization and Information Retrieval on the WWW
http://www.emse.fr/~beigbeder/PUBLIS/1998-webnet-pXXX-doan.pdfInternational audience: Until now the growing volume of heterogeneous and distributed information on the WWW makes increasingly difficult for the existing tools to retrieve relevant information. To improve the performance of these tools, we suggest to handle two aspects of the problem: One concerns a better representation and description of WWW pages, we introduce here a new concept of "WWW documents", and we describe them thanks to metadata. We'll use the Dublin Core semantics and the XML syntax to represent these metadata. We'll suggest how this concept can improve information retrieval on the WWW and reduce the network load generated by robots. Then, we describe a flexible architecture based on two kinds of robots : "generalists" and "specialists" that collect and organize these metadata, in order to localize the resources on the WWW. They will contribute to the overall auto-organizing information process by exchanging their indices
La recherche d'informations sur le World Wide Web : utilisation des méta-informations dans une architecture de systèmes de recherche coopérants
Deux types d'outils de recherche sont actuellement utilisés pour aider l'utilisateur à trouver des informations sur le Web : les moteurs de recherche (Google) et les annuaires thématiques (Yahoo). Cependant les réponses sont fortement entachées de bruit pour les outils universels, et de silence pour les outils thématiques. De plus, le problème qui se pose est de suivre l'augmentation constante du volume de pages Web : la scalabilité. Pour réduire le bruit et le silence nous introduisons un niveau logique avec la notion de document Web au dessus du niveau physique matérialisé par les pages Web. Les documents Web sont organisés en DAG (Directed Acyclic Graph) et sont décrits par des méta-informations. Dans la hiérarchie de documents, nous utilisons la technique de propagation des attributs de méta-informations le long de la hiérarchie de documents. Ceci nous permet de diminuer à la fois le bruit et le silence en combinant des recherches qui portent sur les attributs de m éta-informations avec la recherche traditionnelle dans le texte intégral, tout en exploitant la structure logique des documents Web. Pour le problème de scalabilité, nous proposons une architecture fondée sur 2 nouvelles classes d'outils de recherche. Les outils généralistes ont vocation à parcourir, indexer et connaître tout le Web mais d'une façon superficielle, ils sont par exemple capables d'indiquer tous les sites dont un des domaines concerne l'environnement. Les outils spécialistes ont pour but de collationner et d'indexer toutes les pages de tous les sites d'un domaine de connaissance particulier (par exemple l'environnement). Nous proposons enfin un modèle de dialogue entre ces nouveaux composants permettant de fournir un service global qui adresse à la fois les problèmes de bruit, de précision et de scalabilité. Un spécialiste devient à son tour un document qui s'auto-décrit et participe à l'architecture des systèmes coopérants.No abstrac
Impact of Contextual Information for Hypertext Document Retrieval
International audienceBecause the notion of context is multi-disciplinary, it encompasses lots of issues in Information Retrieval. In this paper, we define the context as the information surrounding one document that is conveyed via the hypertext links. We propose different measures depending on the information chosen to enrich a current document, in order to assess the impact of the contextual information on hypertext documents. Experiments were made over the TREC-9 collections and significant improvement of the precision shows the importance of taking ac-count of the contextual informatio
Expérimentations sur un modèle de recherche d'information utilisant les liens hypertextes des pages Web
National audienceLa fonction de correspondance, qui permet de sélectionner et de classer les documents par rapport à une requête est un composant essentiel dans tout système de recherche d'information. Nous proposons de modéliser une fonction de correspondance prenant en compte à la fois le contenu et les liens hypertextes des pages Web. Nous avons expérimenté notre système sur la collection de test TREC-9, et nous concluons que pour certains types de requêtes, inclure le texte ancre associé aux liens hypertextes des pages dans la fonction de similarité s'avère plus efficace
Evaluation d'un modèle de propagation de pertinence dépendant des termes de la requête sur les collections WT10g et Gov
National audienceNous proposons de modéliser la fonction de correspondance d'un système de recherche d'information en prenant en compte à la fois le contenu d'une page et le voisinage de cette page. Ce voisinage est calculé dynamiquement en pondérant les liens hypertextes reliant les pages en fonction des termes de la requête contenus dans ces pages. Nous avons expérimenté notre système sur deux collections de test WT10g et GOV. Nous concluons que notre fonction réalise de bons résultats par rapport à l'algorithme classique reposant sur le contenu seul de la page et celui de pagerank reposant sur la popularité de la page indépendamment des termes de la requête
- …