9 research outputs found
Marco metodológico para la construcción de sistemas de generación de lenguaje natural
La Generación de Lenguaje Natural (GLN) es una subárea del Procesamiento de Lenguaje Natural (PLN) que trata de la producción automática de textos en una lengua humana a partir de una representación computacional de la información. La GLN es una disciplina relativamente reciente, que no ha sido considerada como una materia con entidad propia hasta la década de 1980. Como se sabe, una de las principales dificultades que presentan las nuevas tecnologÃas es la carencia de estándares o metodologÃas comúnmente aceptadas. En el caso de la construcción de sistemas de GLN la situación es la siguiente. Por un lado, si bien se han descrito métodos y técnicas para resolver ciertas cuestiones de la GLN, no se ha planteado un conjunto de pasos sistemáticos que abarque la elaboración completa de un sistema de GLN. Por otro lado, los sistemas ya desarrollados sólo pueden utilizarse, en el mejor de los casos, como apoyo en la realización de algunos de los módulos del nuevo sistema; primero porque se han construido especÃficamente para un dominio, de forma que adoptan soluciones particulares que no son generalizables y segundo, porque normalmente sólo se tiene acceso a información muy general sobre los mismos o sobre algún método utilizado en una tarea concreta, es decir, no se dispone de documentación que explique detalladamente la construcción de esos sistemas de principio a fin. Con el fin de tener un punto de referencia para futuros proyectos de GLN, esta tesis se propone como objetivo elaborar un marco metodológico que sirva de guÃa en el desarrollo de un sistema de GLN y que abarque todas las actividades implicadas en ese proceso. AsÃ, el fin último de este trabajo es ayudar a convertir el proceso de construcción de un sistema de GLN, actualmente muy artesanal, en una disciplina propia del ámbito de la ingenierÃa (de manera similar a lo ocurrido con los sistemas de ingenierÃa del software e ingenierÃa del conocimiento). Es decir, que produzca sistemas de GLN sin fallos, acabados a tiempo, dentro del presupuesto y que satisfagan las necesidades del usuario, usando para ello un enfoque sistemático, disciplinado y cuantificable que se sirva de métodos y técnicas formales. Para conseguir esto se proporciona: 1.- Una revisión crÃtica de la GLN. Para ello se elaboran definiciones de los diferentes conceptos, unificando visiones complementarias y relacionando los términos empleados con los que utilizan distintos investigadores y desarrolladores en el ámbito de la GLN. 2.- Un conjunto de actividades que hay que realizar para construir un sistema de GLN. Con esto se busca obtener una relación de todo lo que se debe hacer cuando se quiere elaborar un sistema de este tipo. Se toma como base un estándar para el desarrollo del proceso de ciclo de vida de un sistema software, en concreto, el IEEE 1074-1997, y se modifica para poder aplicarlo a la GLN. 3.- Una indicación de cómo llevar a cabo esas actividades, centrándose en aquellas que presentan diferencias con el estándar. Siempre que la experiencia en GLN lo permite, se señalan los métodos y técnicas (previamente existentes o propuestas nuevas planteadas en esta tesis) que se pueden aplicar para llevar a cabo las actividades, y se resaltan los aspectos más importantes que hay que tener en cuenta cuando se están realizando dichas actividades. 4.- Una estrategia de construcción. Se intenta ayudar a crear un ciclo de vida del sistema de GLN estableciendo un orden general de realización de las actividades anteriores, que luego se tendrá que refinar para cada proyecto concreto. Todas estas aportaciones se validan mediante la realización de un proyecto de GLN, que consiste en la construcción de un sistema de consulta sobre plantas medicinales que produce respuestas en español
Adapting the Generalized Upper Model to Spanish
The domain information sources does not usually contain linguistic knowledge that a natural language generation (NLG)systems requires to be able to produce texts. -
CALIOPE: herramienta para gestionar un corpus y un glosario de términos informáticos
En esta comunicación se presenta una aplicación, CalÃope (Barahona 2006), diseñada con el objetivo de proporcionar a alumnos que estudian informática no sólo una forma de aprender el uso de los términos en contexto, sino también de ver las relaciones sintácticas y léxico-semánticas que se establecen entre ellos. Siguiendo los enfoques actuales en terminologÃa (Cabré 2003, Temmerman, 2000) se ha creado esta aplicación en donde, además de una selección de los textos, atendiendo a los criterios más aceptados en el campo de la lingüÃstica de corpus para las lenguas de especialidad (Bowker & Pearson 2002) se recopilan los términos dentro del contexto en el que aparecen, se obtienen las concordancias y las relaciones existentes entre ellos (Aguado 2007). Con esta finalidad, se ha construido una herramienta capaz de manejar on-line dos recursos: un corpus y un glosario de términos en inglés y en español. Este diseño resulta muy útil, por ejemplo, para traducir textos informáticos del inglés al español y viceversa, pues permite saber en qué contextos se utiliza cada término. En consonancia con esta caracterÃstica su uso resulta también muy atrayente en el ámbito de la enseñanza de la lengua inglesa, o en la redacción de textos informáticos en inglés
Intrgración de un corpus de textos biblingüe y un glosario del campo de la informática.
En este trabajo se presentan las principales caracterÃsticas de CalÃope, una aplicación web que es capaz de manejar un corpus y un glosario de términos en inglés y en español. La singularidad más importante de esta herramienta es que permite interrelacionar estos dos recursos. AsÃ, por ejemplo, los resultados de la búsqueda de concordancias se pueden incorporar automáticamente a los ejemplos de uso del término correspondiente en el glosario; y desde la lista de palabras de un texto del corpus se pueden añadir términos al glosario o acceder a la información de un término que esté en el glosario
A New Approach in Building a Corpus for Natural Language Generation System
One of the main difficulties in building NLG systems is to produce a good requirement specification. -
Reutilización y adaptación de la ontologÃa GUM al castellano
En un proyecto de generación del lenguaje natural (GLN) la fuente de información del dominio no contiene normalmente los datos lingüÃsticos que el sistema necesita para poder generar los textos. ..
Análisis de sentiminetos de un corpus de redes sociales.
El análisis de sentimientos de textos en las redes sociales se ha convertido en un área de investigación cada vez más relevante debido a la influencia que las opiniones expresadas tienen en potenciales usuarios. De acuerdo con una clasificación conceptual de sentimientos y basándonos en un corpus de diversos dominios comerciales, hemos trabajado en la confección de reglas que permitan la clasificación de dichos textos según el sentimiento expresado con respecto a una marca, empresa o producto. Con la ayuda de una base de datos de colocaciones (Badele3000) y un gestor de corpus (CalÃope) se han creado 200 reglas en español que han puesto de manifiesto algunas consideraciones a tener en cuenta en la siguiente fase del trabajo
Método para la elaboración de un corpus para la GLN
Una de las dificultades de la construcción de sistemas de GLN es la especificación de requisitos.
Una forma de abordar este problema es usar un corpus para mostrar al cliente el sistema que se
pretende construir. En este artÃculo se describe un método para elaborar ese corpus y se explica cómo
se ha utilizado en un proyecto concreto. Este método consta de 5 pasos: recopilación de textos,
determinación de las entradas, análisis de los textos recopilados y de las entradas, construcción de un
corpus, y extracción de patrones. Finalmente, existe una etapa de búsqueda de similaridades que no
forma parte de la elaboración del corpus en sÃ, pero que está Ãntimamente relacionada con los patrones
y con la que se pretende reducir el tiempo de desarrollo del sistema
Ontologies and Natural Language Processing
Ontologies are widely used in Knowledge Engineering, Artificial Intelligence and Computer Science, in applications related to knowledge management, natural language processing, e-commerce, intelligent integration information, information retrieval, database design and integration, bio-informatics, education, and in new emerging fields like the Semantic Web. Most of these applications involve people from different fields, some of which are not familiar with this term or are only acquainted with the classical notion of ontology, and, therefore, cannot exploit all the possibilities included in an ontology.
This article aims to overcome this situation at least for people interested in one of those fields; namely, natural language processing (NLP). First, we will introduce the basics of ontologies. We will explain what an ontology is, its main components, and the kind of ontologies that there are. We will relate the concept of ontology to those of taxonomy and thesaurus, which are two well known resources in linguistics and other fields related to NLP. We will use them to make ontologies better understandable to that community.
We will also present some interactions between both disciplines. Ontologies and NLP can benefit from each other. On the one hand, ontologies can be used in different areas of NLP, such as Information Retrieval. On the other hand, NLP techniques can be useful for ontologies, especially in Ontology Learning. There is also another issue worth mentioning: ontologies can be used to model NLP-related knowledge -e.g. vocabulary, grammar, linguistic features, etc. -, just as they can model any other domain. Dealing with the large amount of topics relating both areas would be beyond the scope of a reasonable size article. That is why we will focus on two aspects that seem to be among the most relevant nowadays: ontologies about grammatical units, usually referred as 'linguistic ontologies' in literature, and ontology learning (semiautomatic ontology construction) using NIP techniques