7 research outputs found
Proyecto NewsReader
The European project NewsReader develops advanced technology to process daily news streams in 4 languages, extracting what happened, when and where it happened and who was involved. NewsReader reads massive amounts of news coming from thousands of sources. It compares the results across sources to complement information and determine where the different sources disagree. Furthermore, it merges current news with previous news, creating a long-term history rather than separate events. The result is cumulated over time, producing an extremely large knowledge base that is visualized using new techniques to provide more comprehensive access.El proyecto europeo NewsReader desarrolla tecnologÃa avanzada para procesar flujos continuos de noticias diarias en 4 idiomas, extrayendo lo que pasó, cuándo, dónde y quién estuvo involucrado. NewsReader lee grandes cantidades de noticias procedentes de miles de fuentes. Se comparan los resultados a través de las fuentes para complementar la información y determinar en qué están de acuerdo. Además, se fusionan noticias actuales con noticias previas, creando una historia a largo plazo en lugar de eventos separados. El resultado se acumula a lo largo del tiempo, produciendo una inmensa base de conocimiento que puede ser visualizada usando nuevas técnicas que permiten un acceso a la información más exhaustivo.This work has been supported by the EC within the 7th framework programme under grant agreement nr. FP7-IST-316040
Una arquitectura de integración de recursos léxicos de naturaleza heterogénea. Una aportación desde la perspectiva de la integración de datos
En esta tesis se define una arquitectura para una federación de recursos
léxicos de naturaleza heterogénea. Abordamos el problema de cunsultar diversas
fuentes léxicas heterogéneas desde el punto de vista de la integración de datos,
utilizando un lenguaje de consulta unificado.In this work we define an architecture for a federation of highly heterogeneous
lexical information sources. We address the problem of querying very
different existing sources of lexical information from the point of view of information
integration, using for this purpose a unique and common query language
Specification of a general linguistic annotation framework and its use in a real context
AWA es una arquitectura general para representar información
lingüÃstica producida por procesadores lingüÃsticos. Nuestro objetivo es definir un
esquema de representación coherente y flexible que sea la base del intercambio de información entre herramientas lingüÃsticas de cualquier tipo. Los análisis lingüÃsticos
se representan por medio de estructuras de rasgos según las directrices de TEI-P4.
Estas estructuras y su relación con los demás elementos que componen el análisis
forman parte de un modelo de datos diseñado bajo el paradigma de orientación a
objetos. AWA se encarga de la representación de la información dentro de una arquitectura
más amplia para gestionar todo el proceso de análisis de un corpus. Como
ejemplo de la utilidad del modelo presentado explicaremos cómo se ha aplicado dicho
modelo en el procesamiento de dos corpus.In this paper we present AWA, a general architecture for representing
the linguistic information produced by diverse linguistic processors. Our aim is
to establish a coherent and flexible representation scheme that will be the basis
for the exchange of information. We use TEI-P4 conformant feature structures
as a representation schema for linguistic analyses. A consistent underlying data
model, which captures the structure and relations contained in the information to
be manipulated, has been identified and implemented by a set of classes following
the object-oriented paradigm. As an example of the usefulness of the model, we will
show the usage of the framework in a real context: two corpora have been annotated
by means of an application which aim is to exploit and manipulate the data created
by the linguistic processors developed so far
Análisis automático del diccionario Hauta-Lanerako Euskal Hiztegia
El propósito de la siguiente comunicación es el de dar a conocer la labor desarrollada en el proceso de análisis del Hauta-Lanerako Euskal Hiztegia (HLEH) [Sarasola 84/95]. Para ello se describirán las caracterÃsticas más importantes del mismo, para pasar a continuación a detallar las fases concernientes a la preparación del diccionario fuente en MRD y la confección de la gramática que refleje la estructura del mismo
KYOTO project
El proyecto Kyoto construye un sistema de información independiente del lenguaje para un dominio especÃfico (medio ambiente, ecologÃa y diversidad) basado en una ontologÃa independiente del lenguaje que estará enlazada a Wordnets en siete idiomas.The KYOTO project will construct a language-independent information system for a specific domain (environment, ecology and biodiversity) anchored in a language-independent ontology that is linked to wordnets in seven languages.This work has been supported by the KYOTO project which is funded under project number 211423 in the 7th Frame Work in the area of Digital Libraries: FP7-ICT-2007-1, Objective ICT-2007.4.2: Intelligent Content and Semantics
Extracción de relaciones semánticas mediante una gramática de restricciones
Este artÃculo da cuenta de los primeros
resultados de un proyecto destinado a
extraer relaciones semánticas de las
definiciones del diccionario monolingüe en
euskara Euskal Hiztegia. La técnica para
extraer dichas relaciones utiliza el
mecanismo de mappings de las gramáticas
de restricciones, que se apoyan en la
información morfosintáctica ya provista por
el analizador morfológico MORFEUS. Se
presentan los resultados referentes a la
extracción de las relaciones de sinonimia e
hiperonimia, en la que se consigue etiquetar
el 85% de las definiciones de los
sustantivos. Cubrimos el 91,3% de las
definiciones con genus/sinónimo con un
error en la extracción del 5%, aunque el
98,9% de las definiciones etiquetadas
tienen al menos un genus/sinónimo
correcto. Los resultados obtenidos, asÃ
como el pequeño esfuerzo necesario, nos
indican que es factible extraer relaciones
semánticas a partir de la información
morfosintáctica proporcionada en un
tiempo razonable, ya sea para sustantivos,
verbos o adjetivos.Este trabajo ha recibido ayudas del CYCIT
(TIC96-1243-C03-02 proyecto ITEM) y de la UPV
(141.226-TA073/96)
Extracción de relaciones semánticas mediante una gramática de restricciones
Este artÃculo da cuenta de los primeros
resultados de un proyecto destinado a
extraer relaciones semánticas de las
definiciones del diccionario monolingüe en
euskara Euskal Hiztegia. La técnica para
extraer dichas relaciones utiliza el
mecanismo de mappings de las gramáticas
de restricciones, que se apoyan en la
información morfosintáctica ya provista por
el analizador morfológico MORFEUS. Se
presentan los resultados referentes a la
extracción de las relaciones de sinonimia e
hiperonimia, en la que se consigue etiquetar
el 85% de las definiciones de los
sustantivos. Cubrimos el 91,3% de las
definiciones con genus/sinónimo con un
error en la extracción del 5%, aunque el
98,9% de las definiciones etiquetadas
tienen al menos un genus/sinónimo
correcto. Los resultados obtenidos, asÃ
como el pequeño esfuerzo necesario, nos
indican que es factible extraer relaciones
semánticas a partir de la información
morfosintáctica proporcionada en un
tiempo razonable, ya sea para sustantivos,
verbos o adjetivos.Este trabajo ha recibido ayudas del CYCIT
(TIC96-1243-C03-02 proyecto ITEM) y de la UPV
(141.226-TA073/96)