15 research outputs found

    The ALVIS Format for Linguistically Annotated Documents

    Full text link
    The paper describes the ALVIS annotation format designed for the indexing of large collections of documents in topic-specific search engines. This paper is exemplified on the biological domain and on MedLine abstracts, as developing a specialized search engine for biologists is one of the ALVIS case studies. The ALVIS principle for linguistic annotations is based on existing works and standard propositions. We made the choice of stand-off annotations rather than inserted mark-up. Annotations are encoded as XML elements which form the linguistic subsection of the document record

    A Robust Linguistic Platform for Efficient and Domain specific Web Content Analysis

    Full text link
    Web semantic access in specific domains calls for specialized search engines with enhanced semantic querying and indexing capacities, which pertain both to information retrieval (IR) and to information extraction (IE). A rich linguistic analysis is required either to identify the relevant semantic units to index and weight them according to linguistic specific statistical distribution, or as the basis of an information extraction process. Recent developments make Natural Language Processing (NLP) techniques reliable enough to process large collections of documents and to enrich them with semantic annotations. This paper focuses on the design and the development of a text processing platform, Ogmios, which has been developed in the ALVIS project. The Ogmios platform exploits existing NLP modules and resources, which may be tuned to specific domains and produces linguistically annotated documents. We show how the three constraints of genericity, domain semantic awareness and performance can be handled all together

    Annotation linguistique de documents Web dans une architecture distribuée et adaptable

    No full text
    The French Perl Workshop (Journées Francophones de Perl - FPW2006) Communication oraleDans le cadre du projet ALVIS (www.alvis.info/alvis), nous avons conçu une plate-forme d'enrichissement linguistique de documents issus du Web, exploitant des outils de Traitement Automatique des Langues (TAL) existants. Cette architecture est distribuée afin de répondre aux contraintes liées aux traitements de gros volumes de textes, et adaptable pour spécialiser l'analyse linguistique de ces textes. Une collection de 55 329 documents (soit plus 80 millions de mots) a pu être annotée en 3 jours. La plate-forme, développée en Perl et disponible sous forme de modules, peut être vu comme un cadre de travail modulaire dans lequel il est possible d'intégrer de nouveaux outils de TAL. Lors de l'exposé, nous présenterons la plate-forme, aussi bien du point de vue de sa conception que de son implémentation. Nous donnerons également un aperçu des performances obtenues

    Deliverable D5.2: Report on theory and software of normalization options for IR (platform conception)

    No full text
    ALVIS Deliverable ReportThis document gives technical details regarding the implementation and usage of the ALVIS platform for English, French, Chinese and Slovene

    Alvis NLP Platform

    No full text
    The Alvis NLP Platform is a scalable arcitecture using existing NLP tools to annotate large collections of web documents

    Ogmios : une plate-forme d'annotation linguistique

    No full text
    National audienceL'un des objectifs du projet ALVIS est d'intégrer des informations linguistiques dans des moteurs de recherche spécialisés. Dans ce contexte, nous avons conçu une plate-forme d'enrichissement linguistique de documents issus du Web, Ogmios, exploitant des outils de TAL existants. Les documents peuvent être en français ou en anglais. Cette architecture est distribuée, afin de répondre aux contraintes liées aux traitements de gros volumes de textes, et adaptable, afin de spécialiser l'analyse linguistique de ces textes. La plate-forme est développée en Perl et disponible sous forme de modules CPAN. Elle peut être vue comme un cadre de travail modulaire dans lequel il est possible d'intégrer des ressources adaptées au domaine traité mais aussi de nouveaux outils de TAL. Nous avons évalué les performances de la plateforme sur plusieurs collections de documents. En distribuant les traitements sur vingt machines, une collection de 55~329 documents du domaine de la biologie (106 millions de mots) a été annotée en 35 heures tandis qu'une collection de 48 422 dépêches relatives aux moteurs de recherche (14 millions de mots) a été annotée en 3 heures et 15 minutes

    Ogmios: a scalable NLP platform for annotating large web document collections

    No full text
    Search engines like Google or Yahoo offer access to billions of textual web pages. These tools are very popular and seem to be sufficient for a large number of general user queries on the Internet. However, some other queries are more complex, requiring specific knowledge or processing strategies: no really satisfactory solution exists for these requests

    A Scalable and Distributed NLP Architecture for Web Document Annotation

    No full text
    corecore