4 research outputs found

    Una propuesta de infraestructura para el procesamiento del lenguaje natural

    Get PDF
    La generación de recursos dentro de un grupo de investigación se ve fuertemente influenciada por la movilidad del personal eventual, por la propia evolución profesional del personal fijo, así como por la constante revisión de las técnicas y materiales necesarios. El resultado es un conjunto de herramientas y datos poco cohesionados que suponen un esfuerzo extra a la hora de establecer un marco de prototipado. En este sentido hay ya varias propuestas de entornos de integración y evaluación de herramientas pero con una curva de aprendizaje a veces notable, al tiempo que poco flexible en determinadas situaciones. Este artículo presenta una propuesta de organización de los recursos ajenos y propios de un grupo de investigación que permite, con una muy fácil implementación, un ahorro en tiempo y costes de programación, y una gestión eficiente mediante el uso transparente de las capacidades actuales de las redes cliente-servidor.The generation of resources within a research group is strongly influenced by the features of the staff, such as its professional evolution or its own temporariness, as well as the constant revision of techniques and materials. The result is a set of tools and data poorly coordinated that means an extra effort when establishing a prototyping frame. In this sense, there are already several Text Engineering Architectures for integration and evaluation of tools. However, they are hard to understand and use in some cases, and suffer from a lack of flexibility in others. This article presents a proposal of organizing own and other people’s resources in a research group that allows, with a very easy implementation, low costs in time and programming, besides an efficient management, by means of using the current capacities of the client-server networks.Este trabajo esta subvencionado por el Ministerio de Ciencia y Tecnología mediante el proyecto R2D2 de referencia TIC2003-07158-C04

    Spanish all-words semantic class disambiguation using Cast3LB corpus

    Get PDF
    In this paper, an approach to semantic disambiguation based on machine learning and semantic classes for Spanish is presented. A critical issue in a corpus-based approach for Word Sense Disambiguation (WSD) is the lack of wide-coverage resources to automatically learn the linguistic information. In particular, all-words sense annotated corpora such as SemCor do not have enough examples for many senses when used in a machine learning method. Using semantic classes instead of senses allows to collect a larger number of examples for each class while polysemy is reduced, improving the accuracy of semantic disambiguation. Cast3LB, a SemCor-like corpus, manually annotated with Spanish WordNet 1.5 senses, has been used in this paper to perform semantic disambiguation based on several sets of classes: lexicographer files of WordNet, WordNet Domains, and SUMO ontology.This paper has been supported by the Spanish Government under projects CESS-ECE (HUM2004-21127-E) and R2D2 (TIC2003-07158-C04-01)

    Extracción de relaciones sintagmáticas de corpus anotados

    No full text
    En este trabajo se presenta un nuevo recurso, diseñado con el objetivo de ser usado en desambiguación semántica de las palabras en español, basado en las relaciones sintagmáticas entre las palabras. Las relaciones sintagmáticas son relaciones entre sentidos dentro de un sintagma o dentro de una oración. En nuestro caso, estas relaciones han sido extraídas de un corpus anotado manualmente, corpus Cast3LB. Este corpus ha sido anotado con información sintáctica (constituyentes y funciones) e información semántica (sentidos de WordNet). De este corpus se han extraído aproximadamente 3000 patrones. Cada patrón muestra la relación sintagmática entre el sentido del verbo y el sentido de sus argumentos dentro de una oración. Sin embargo, estos patrones son excesivamente específicos para ser usados en contextos multilingües o en documentos de dominio general. Para solucionar esto es necesario obtener patrones más generales semánticamente, para lo cual se ha utilizado la ontología SUMO.In this paper, we present a new resource, designed for being used in WSD, based on syntagmatic relations between senses for Spanish. These relations have been extracted from a corpus: the Cast3LB corpus which has been manually annotated with syntactic and semantic information (WordNet senses). From it, approximately 3000 patterns have been extracted. These patterns show the syntagmatic relations between verb senses and its arguments within a sentence. However, these patterns can be too specific to be used in multilingual contexts or in open domain texts. Consequently, it is necessary to obtain more abstract patterns. In order to do so, we have also developed general patterns using semantic classes based on the SUMO ontology.Este trabajo ha sido parcialmente financiado por el proyecto CES-ECE (HUM2004-21127-E) y el proyecto R2D2 (TIC2003-07158-C04-01)
    corecore