Search CORE

7 research outputs found

Proyecto NewsReader

Author: Agerri Gascón Rodrigo
Agirre Bengoa Eneko
Aldabe Arregi Itziar
Altuna Díaz Begoña
Beloki Leiza Zuhaitz
Laparra Martín Egoitz
López de Lacalle Maddalen
Rigau Claramunt German
Soroa Etxabe Aitor
Urizar Enbeita Rubén
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2014
Field of study

The European project NewsReader develops advanced technology to process daily news streams in 4 languages, extracting what happened, when and where it happened and who was involved. NewsReader reads massive amounts of news coming from thousands of sources. It compares the results across sources to complement information and determine where the different sources disagree. Furthermore, it merges current news with previous news, creating a long-term history rather than separate events. The result is cumulated over time, producing an extremely large knowledge base that is visualized using new techniques to provide more comprehensive access.El proyecto europeo NewsReader desarrolla tecnología avanzada para procesar flujos continuos de noticias diarias en 4 idiomas, extrayendo lo que pasó, cuándo, dónde y quién estuvo involucrado. NewsReader lee grandes cantidades de noticias procedentes de miles de fuentes. Se comparan los resultados a través de las fuentes para complementar la información y determinar en qué están de acuerdo. Además, se fusionan noticias actuales con noticias previas, creando una historia a largo plazo en lugar de eventos separados. El resultado se acumula a lo largo del tiempo, produciendo una inmensa base de conocimiento que puede ser visualizada usando nuevas técnicas que permiten un acceso a la información más exhaustivo.This work has been supported by the EC within the 7th framework programme under grant agreement nr. FP7-IST-316040

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Una arquitectura de integración de recursos léxicos de naturaleza heterogénea. Una aportación desde la perspectiva de la integración de datos

Author: Soroa Etxabe Aitor
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2005
Field of study

En esta tesis se define una arquitectura para una federación de recursos léxicos de naturaleza heterogénea. Abordamos el problema de cunsultar diversas fuentes léxicas heterogéneas desde el punto de vista de la integración de datos, utilizando un lenguaje de consulta unificado.In this work we define an architecture for a federation of highly heterogeneous lexical information sources. We address the problem of querying very different existing sources of lexical information from the point of view of information integration, using for this purpose a unique and common query language

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Secretaría de Estado de Cultura

Specification of a general linguistic annotation framework and its use in a real context

Author: Artola Zubillaga Xabier
Díaz de Ilarraza Sánchez Arantza
Sologaistoa Fresno Aitor
Soroa Etxabe Aitor
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2007
Field of study

AWA es una arquitectura general para representar información lingüística producida por procesadores lingüísticos. Nuestro objetivo es definir un esquema de representación coherente y flexible que sea la base del intercambio de información entre herramientas lingüísticas de cualquier tipo. Los análisis lingüísticos se representan por medio de estructuras de rasgos según las directrices de TEI-P4. Estas estructuras y su relación con los demás elementos que componen el análisis forman parte de un modelo de datos diseñado bajo el paradigma de orientación a objetos. AWA se encarga de la representación de la información dentro de una arquitectura más amplia para gestionar todo el proceso de análisis de un corpus. Como ejemplo de la utilidad del modelo presentado explicaremos cómo se ha aplicado dicho modelo en el procesamiento de dos corpus.In this paper we present AWA, a general architecture for representing the linguistic information produced by diverse linguistic processors. Our aim is to establish a coherent and flexible representation scheme that will be the basis for the exchange of information. We use TEI-P4 conformant feature structures as a representation schema for linguistic analyses. A consistent underlying data model, which captures the structure and relations contained in the information to be manipulated, has been identified and implemented by a set of classes following the object-oriented paradigm. As an example of the usefulness of the model, we will show the usage of the framework in a real context: two corpora have been annotated by means of an application which aim is to exploit and manipulate the data created by the linguistic processors developed so far

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Análisis automático del diccionario Hauta-Lanerako Euskal Hiztegia

Author: Arriola Egurrola José María
Artola Zubillaga Xabier
Soroa Etxabe Aitor
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/1995
Field of study

El propósito de la siguiente comunicación es el de dar a conocer la labor desarrollada en el proceso de análisis del Hauta-Lanerako Euskal Hiztegia (HLEH) [Sarasola 84/95]. Para ello se describirán las características más importantes del mismo, para pasar a continuación a detallar las fases concernientes a la preparación del diccionario fuente en MRD y la confección de la gramática que refleje la estructura del mismo

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

KYOTO project

Author: Agirre Bengoa Eneko
Casillas Rubio Arantza
Díaz de Ilarraza Sánchez Arantza
Estarrona Ibarloza Ainara
Fernández Terrones Enrique
Gojenola Galletebeitia Koldo
Laparra Martín Egoitz
Rigau Claramunt German
Soroa Etxabe Aitor
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/2009
Field of study

El proyecto Kyoto construye un sistema de información independiente del lenguaje para un dominio específico (medio ambiente, ecología y diversidad) basado en una ontología independiente del lenguaje que estará enlazada a Wordnets en siete idiomas.The KYOTO project will construct a language-independent information system for a specific domain (environment, ecology and biodiversity) anchored in a language-independent ontology that is linked to wordnets in seven languages.This work has been supported by the KYOTO project which is funded under project number 211423 in the 7th Frame Work in the area of Digital Libraries: FP7-ICT-2007-1, Objective ICT-2007.4.2: Intelligent Content and Semantics

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Secretaría de Estado de Cultura

Extracción de relaciones semánticas mediante una gramática de restricciones

Author: Agirre Bengoa Eneko
Ansa Osteriz Olatz
Arregi Iparragirre Patxi Xabier
Arriola Egurrola José María
Díaz de Ilarraza Sánchez Arantza
Lersundi Ayestaran Mikel
Soroa Etxabe Aitor
Urizar Enbeita Rubén
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/01/1998
Field of study

Este artículo da cuenta de los primeros resultados de un proyecto destinado a extraer relaciones semánticas de las definiciones del diccionario monolingüe en euskara Euskal Hiztegia. La técnica para extraer dichas relaciones utiliza el mecanismo de mappings de las gramáticas de restricciones, que se apoyan en la información morfosintáctica ya provista por el analizador morfológico MORFEUS. Se presentan los resultados referentes a la extracción de las relaciones de sinonimia e hiperonimia, en la que se consigue etiquetar el 85% de las definiciones de los sustantivos. Cubrimos el 91,3% de las definiciones con genus/sinónimo con un error en la extracción del 5%, aunque el 98,9% de las definiciones etiquetadas tienen al menos un genus/sinónimo correcto. Los resultados obtenidos, así como el pequeño esfuerzo necesario, nos indican que es factible extraer relaciones semánticas a partir de la información morfosintáctica proporcionada en un tiempo razonable, ya sea para sustantivos, verbos o adjetivos.Este trabajo ha recibido ayudas del CYCIT (TIC96-1243-C03-02 proyecto ITEM) y de la UPV (141.226-TA073/96)

Repositorio Institucional de la Universidad de Alicante

LAReferencia - Red Federada de Repositorios Institucionales de Publicaciones Científicas Latinoamericanas

Secretaría de Estado de Cultura

Extracción de relaciones semánticas mediante una gramática de restricciones

Author: Agirre Bengoa Eneko
Ansa Osteriz Olatz
Arregi Iparragirre Patxi Xabier
Arriola Egurrola José María
Díaz de Ilarraza Sánchez Arantza
Lersundi Ayestaran Mikel
Soroa Etxabe Aitor
Urizar Enbeita Rubén
Publication venue: Sociedad Española para el Procesamiento del Lenguaje Natural
Publication date: 01/09/1998
Field of study

Repositorio Institucional de la Universidad de Alicante

Crossref

PORTO@iris (Publications Open Repository TOrino - Politecnico di Torino)

PORTO Publications Open Repository TOrino