14 research outputs found
Información Investigador: Contreras Zambrano, Hilda Yelitza
Resumen Curricular
Licenciada en Computación, Universidad Central de Venezuela (1996). Magister en Ciencias de la Computación, Universidad de Los Andes (2003).MaestríaProcesamiento del Lenguaje Natural, Lingüística Computacional, Lingüística textual, Tecnologías Web emergentes, Repositorios InstitucionalesJunio de 2007Lic. en Computación+58 274 2402265Facultad de Ingenierí[email protected]. 4. Edif. Gral. Masini. Piso 3. Ofic. A-
Una técnica para la extracción automática de resúmenes basada en una gramática de estilo
Una técnica para la extracción automática de resúmenes basada en una gramática de estilo
(Contreras Zambrano, Hilda Yelitza)
Resumen
Este documento presenta un experimento lingüístico que consiste en resumir textos escritos en español. El resumen es realizado con una herramienta computacional que aplica técnicas simbólicas basadas en una "gramática de estilos". Esta gramática modela las reglas de estilo para la escritura propuestas por Williams (1990). El programa puede obtener desde los tópicos de las oraciones de cada párrafo y reconocer elementos sintáctico-estructurales de cohesión y coherencia textual, hasta los tópicos más importantes del párrafo. Estos resultados son aprovechados para construir un resumen con oraciones asociadas a dichos tópicos. Esta versión de nuestro resumidor muestra cómo sobre la base de reglas lógicas para definir estilos y "tópicos" se pueden obtener resúmenes de textos "aceptables" por evaluadores humanos. Con esto se sugiere que aplicando estos modelos podemos obtener resultados reduciendo la complejidad del tradicional procesamiento morfológico, sintáctico y semántico. Para finalizar se realiza una descripción de las estrategias planteadas para extender y continuar este proyecto.Universidad de Los Andes1-97Magister Scientiae en Computació[email protected] monográficoING-000
Una técnica para la extracción automática de resúmenes basada en una gramática de estilo
Este documento presenta un experimento lingüístico que consiste en resumir textos escritos en español. El resumen es realizado con una herramienta computacional que aplica técnicas simbólicas basadas en una “gramática de estilos”. Esta gramática modela las reglas de estilo para la escritura propuestas por Williams (1990). El programa puede obtener desde los tópicos de las oraciones de cada párrafo y reconocer elementos sintáctico-estructurales de cohesión y coherencia textual, hasta los tópicos más importantes del párrafo. Estos resultados son aprovechados para construir un resumen con oraciones asociadas a dichos tópicos. Esta versión de nuestro resumidor muestra cómo sobre la base de reglas lógicas para definir estilos y “tópicos” se pueden obtener resúmenes de textos “aceptables” por evaluadores humanos. Con esto se sugiere que aplicando estos modelos podemos obtener resultados reduciendo la complejidad del tradicional procesamiento morfológico, sintáctico y semántico. Para finalizar se realiza una descripción de las estrategias planteadas para extender y continuar este proyecto.Univercidad de Los AndesMagister Scientiae en Computació[email protected]
Taller de Tecnologías XML
Taller de Tecnologías XML
(Hilda Y. Contreras Zambrano)
Resumen
Taller teórico-práctico destinado a familiarizar a los participantes en los aspectos básicos de las tecnologías XML y su uso en conjunto con aplicaciones y Bases de Informació[email protected] monográfic
Procesamiento del lenguaje natural basado en una "gramática de estilos" para el idioma español.
Procesamiento del lenguaje natural basado en una "gramática de estilos" para el idioma español.
(Contreras Zambrano, Hilda Yelitza)
Resumen
Los problemas de procesar el lenguaje natural y de extraer información, han sido atacados desde hace varías décadas y el presente documento hace una revisión de estos intentos. Sin embargo, las investigaciones no han sido suficientes para diseñar un sistema que rinda como un humano al interpretar lenguaje natural. El lenguaje natural escapa a todos los esfuerzos de tratamiento computacional, al parecer, debido a que el conocimiento lingüístico está asociado, de formas sutiles y
desconocidas, con el conocimiento contextual que tiene el hablante. El presente trabajo es la investigación previa del estado del arte de esta área de conocimiento, para abordar posteriormente el problema específico del procesamiento del lenguaje
natural en forma escrito y la extracción de información a partir colecciones de textos. Este proyecto pretenderá desarrollar una herramienta para interpretar documentos en español y extraer de ellos buenos descriptores.1.- Introducción: ¿Qué pretende el proyecto?2.- Marco Teórico: ¿En qué se basa?2.1. Recuperación de Información.2.1.1. Minería de Texto.2.1.2. Extracción de Información.2.2. Procesamiento del Lenguaje Natural.2.2.1. Lingüística Computacional.2.2.2. El Lenguaje desde el punto de vista científico.2.2.3. Problemas en el uso del Lenguaje Natural.2.3. Modelos del NLP.2.3.1. Modelo Simbólico.2.3.1.1. Fundamentos teóricos: gramáticas formales.Gramáticas regulares o de estados finitos.Gramáticas Independientes del Contexto.Gramáticas de Unificación y Rasgos.2.3.1.2. Estructura de un sistema PLN simbólico.2.3.1.3. Ejemplo de modelos simbólicos: una gramática para el español.2.3.2. Modelo Estadístico.2.3.2.1. Modelos estadísticos en CL.Técnicas básicas, estimación y evaluación de probabilidades.Modelo de N-gramas.2.3.2.2. Ejemplo de modelos estadísticos: una gramática probabilísticapara el español.2.3.3. Modelo Biológico.2.3.3.1. Redes neuronales.2.3.3.2. La computación evolutiva: Algoritmos genéticos.2.3.3.3. Ejemplo de modelos biológicos: tratamiento de fonemas en español.2.3.4. Comparación de los modelos de NLP.2.4. Revisión Histórica del NLP.3.- Definición del Problema.4.- Metodología: ¿Cómo? ¿Cuál es la Estrategia?5.- [email protected] monográficoING-000
Una gramática de estilos para resumir textos en español
Este artículo presenta un experimento lingüístico que consiste en resumir textos
escritos en español. El resumen es realizado con una herramienta computacional que aplica
técnicas simbólicas basadas en una “gramática de estilos”. Esta gramática modela las reglas de
estilo para la escritura propuestas por Williams (1990). El programa puede obtener desde los
tópicos de las oraciones de cada párrafo y reconocer elementos sintáctico-estructurales de
cohesión y coherencia textual, hasta los tópicos más importantes del párrafo. Se aprovechan
estos resultados para construir un resumen con oraciones asociadas a dichos tópicos. Esta
versión inicial de nuestro resumidor muestra como en base a reglas lógicas para definir estilos y
“tópicos” se pueden obtener resúmenes de textos “aceptables” por expertos en el dominio de
conocimiento de los textos. Tambié n se sugiere que aplicando estos modelos podemos obtener
resultados reduciendo la complejidad del procesamiento morfológico, sintáctico y semántico
tradicional.This paper describes an experiment on text summarization. A summary is made by
means of a logic program executed by a computer. The logic program is an embodiment of a
symbolic technique for natural language processing based on “style grammars”. These
grammars, in turn, are based on a proposal by J. Williams (1990). The program obtains topics
(the themes of the sentence, according to Williams) from each sentence in a paragraph and
check its syntax and structure for cohesion and structural coherence. It ends with a proposal for
the most important topic of the paragraph, which can be used as a building block for a summary.
The main outcome of this work is the evidence that a set of rules, written in the language of
logic, can embody style criteria, produce “topics” for texts in Spanish and lead to a tractable,
computational implementation
Natural language processing based on "grammars of style" for Spanish language
Procesamiento del lenguaje natural basado en una "gramática de estilos" para el idioma español
(Jacinto A. Dávila Quintero, Hilda Y. Contreras Zambrano)
Resumen
Este artículo presenta un proyecto de investigación que pretende desarrollar una herramienta para interpretar
documentos en español y extraer de ellos descriptores relevantes. Los problemas de procesar el lenguaje natural y de
extraer información, han sido atacados desde hace varias décadas [13], [2], [18]. Sin embargo, las investigaciones no han
sido suficientes para diseñar un sistema que interprete el lenguaje natural con un rendimiento cercano al de un humano.
El lenguaje natural escapa a todos los esfuerzos de tratamiento computacional, al parecer, debido a que el conocimiento
lingüístico está asociado de formas sutiles y desconocidas con el conocimiento contextual que tiene el hablante [15]. En
este trabajo abordaremos el problema de la interpretación del lenguaje escrito usando gramáticas de estilos y formas
lógicas. La gramática de estilo se inspira en las reglas de estilo que propone J. Williams [16] para escribir prosa en
inglés. Esta estrategia adaptada al español y la definición de un buen descriptor, tienen la finalidad de reducir la
complejidad del procesamiento sintáctico/semántico tradicional; Además de incorporar el conocimiento contextual en el
proceso. Validaremos la estrategia con un prototipo de un módulo de asignación de descriptores para un sistema
bibliográfico virtual.
Abstract
This paper describes an experiment on text summarization. A summary is made by means of a logic program executed by a computer. The logic program is an embodiment of a symbolic technique for natural language processing based on "style grammars". These grammars, in turn, are based on a proposal by J. Williams (1990). The program obtains topics (the themes of the sentence, according to Williams) from each sentence in a paragraph and check its syntax and structure for cohesion and structural coherence. It ends with a proposal for the most important topic of the paragraph, which can be used as a building block for a summary. The main outcome of this work is the evidence that a set of rules, written in the language of logic, can embody style criteria, produce "topics" for texts in Spanish and lead to a tractable, computational implementation.
Publicado en [email protected]@ula.veNivel monográfic
Una gramática de estilos para resumir textos en español
Una gramática de estilos para resumir textos en español
(Jacinto A. Dávila Quintero, Hilda Y. Contreras Zambrano)
Resumen
Este artículo presenta un experimento lingüístico que consiste en resumir textos escritos en español. El resumen es realizado con una herramienta computacional que aplica técnicas simbólicas basadas en una "gramática de estilos". Esta gramática modela las reglas de estilo para la escritura propuestas por Williams (1990). El programa puede obtener desde los tópicos de las oraciones de cada párrafo y reconocer elementos sintáctico-estructurales de cohesión y coherencia textual, hasta los tópicos más importantes del párrafo. Se aprovechan
estos resultados para construir un resumen con oraciones asociadas a dichos tópicos. Esta versión inicial de nuestro resumidor muestra como en base a reglas lógicas para definir estilos y "tópicos" se pueden obtener resúmenes de textos "aceptables" por expertos en el dominio de conocimiento de los textos. También se sugiere que aplicando estos modelos podemos obtener resultados reduciendo la complejidad del procesamiento morfológico, sintáctico y semántico tradicional.
Abstract
This paper describes an experiment on text summarization. A summary is made by means of a logic program executed by a computer. The logic program is an embodiment of a symbolic technique for natural language processing based on "style grammars". These grammars, in turn, are based on a proposal by J. Williams (1990). The program obtains topics (the themes of the sentence, according to Williams) from each sentence in a paragraph and check its syntax and structure for cohesion and structural coherence. It ends with a proposal for the most important topic of the paragraph, which can be used as a building block for a summary.
The main outcome of this work is the evidence that a set of rules, written in the language of logic, can embody style criteria, produce "topics" for texts in Spanish and lead to a tractable, computational implementation.
Publicado en la Revista de la Sociedad Española para el Procesamiento del Lenguaje Natural, Revista nº 29, septiembre de [email protected]@ula.veNivel monográfic
Repositorio institucional www.saber.ula.ve: una aproximación testimonial
En el contexto mundial del acceso abierto al conocimiento, se presenta el testimonio y las estrategias de desarrollo e implantación del repositorio institucional www.saber.ula.ve, ubicado entre los primeros veinte repositorios del mundo según el World ranking on the Web del año 2008 (webometric) y referenciado desde diferentes índices, buscadores, bibliotecas y páginas web. Se muestra cómo un proceso de desarrollo adaptado a la cultura y necesidades de una universidad en un país latinoamericano, ante las barreras y limitaciones, consigue con éxito difundir la producción intelectual de su institución, contribuye a impulsar su proyección como ente generador de conocimiento e incentiva la apropiación de las Tecnologías de Información y Comunicaciones por parte de su [email protected]@[email protected]