7 research outputs found
Interpretación tabular de autómatas para lenguajes de adjunción de árboles
[Resumen] Las gramáticas de adjunción de árboles son una extensión de las gramáticas independientes del
contexto que utilizan árboles en vez de producciones como estructuras elementales y que resultan
adecuadas para la descripción de la mayor parte de las construcciones sintácticas presentes en el
lenguaje natural. Los lenguajes generados por esta clase de gramáticas se denominan lenguajes
de adjunción de árboles y son equivalentes a los lenguajes generados por las gramáticas lineales
de índices y otros formalismos suavemente dependientes del contexto.
En la primera parte de esta memoria se presenta el problema del análisis sintáctico de los
lenguajes de adjunción de árboles. Para ello, se establece un camino evolutivo continuo en el
que se sitúan los algoritmos de análisis sintáctico que incorporan las estrategias de análisis más
importantes, tanto para el caso de las gramáticas de adjunción de árboles como para el caso de
las gramáticas lineales de índices.
En la segunda parte se definen diferentes modelos de autómata que aceptan exactamente los
lenguajes de adjunción de árboles y se proponen técnicas que permiten su ejecución eficiente.
La utilización de autómatas para realizar el análisis sintáctico es interesante porque permite
separar el problema de la definición de un algoritmo de análisis sintáctico del problema de la
ejecución del mismo, al tiempo que simplifica las pruebas de corrección. Concretamente, hemos
estudiado los siguientes modelos de autómata:
• Los autómatas a pila embebidos descendentes y ascendentes, dos extensiones de ^ los
autómatas a pila que utilizan como estructura de almacenamiento una pila de pilas. Hemos
definido nuevas versiones de estos autómatas en las cuales se simplifica la forma de
las transiciones y se elimina el control de estado finito, manteniendo la potencia expresiva.
• La restricción de los autómatas lógicos a pila para adaptarlos al reconocimiento de las
gramáticas lineales de índices, obteniéndose diferentes tipos de autómatas especializados
en diversas estrategias de análisis según el conjunto de transiciones permitido.
• Los autómatas lineales de índices, tanto los orientados a la derecha, adecuados para estrategias
en las cuales las adjunciones se reconocen de manera ascendente, los orientados a la
izquierda, aptos para estrategias de análisis en las que las adjunciones se tratan de forma
descendente, como los fuertemente dirigidos, capaces de incorporar estrategias de análisis
en las cuales las adjunciones se tratan de manera ascendente y/o descendente.
• Los autómatas con dos pilas, una extensión de los autómatas a pila que trabaja con una
pila maestra encargada de dirigir el proceso de análisis y una pila auxiliar que restringe
las transiciones aplicables en un momento dado. Hemos descrito dos versiones diferentes
de este tipo de autómatas, los autómatas con dos pilas fuertemente dirigidos, aptos para
describir estrategias de análisis arbitrarias, y los autómatas con dos pilas ascendentes,
adecuados para describir estrategias de análisis en las cuales las adjunciones se procesan ascendentemente.
Hemos definido esquemas de compilación para todos estos modelos de autómata. Estos
esquemas permiten obtener el conjunto de transiciones correspondiente a la implantación de
una determinada estrategia de análisis sintáctico para una gramática dada.
Todos los modelos de autómata pueden ser ejecutados en tiempo polinomial con respecto a
la longitud de la cadena de entrada mediante la aplicación de técnicas de interpretación tabular.
Estas técnicas se basan en la manipulación de representaciones colapsadas de las configuraciones
del autómata, denominadas ítems, que se almacenan en una tabla para su posterior reutilización.
Con ello se evita la realización de cálculos redundantes.
Finalmente, hemos analizado conjuntamente los diferentes modelos de autómata, los cuales
se pueden dividir en tres grandes grupos: la familia de los autómatas generales, de la que
forman parte los autómatas lineales de índices fuertemente dirigidos y los autómatas con dos
pilas fuertemente dirigidos; la familia de los autómatas descendentes, en la que se encuadran
los autómatas a pila embebidos y los autómatas lineales de índices orientados a la izquierda; y
la familia de los autómatas ascendentes, en la que se enmarcan los autómatas a pila embebidos
ascendentes, los autómatas lineales de índices orientados a la derecha y los autómatas con dos
pilas ascendentes.[Abstract] Tree adjoining grammars are an extension of context-free grammars that use trees instead of
productions as the primary representing structure and that are considered to be adequate to
describe most of syntactic phenomena occurring in natural languages. These grammars generate
the class of tree adjoining languages, which is equivalent to the class of languages generated by
linear indexed grammars and other mildly context-sensitive formalisms.
In the first part of this dissertation, we introduce the problem of parsing tree adjoining
grammars and linear indexed grammars, creating, for both formalisms, a continuum from simple
pure bottom-up algorithms to complex predictive algorithms and showing what transformations
must be applied to each one in order to obtain the next one in the continuum.
In the second part, we define several models of automata that accept the class of tree adjoining
languages, proposing techniques for their efficient execution. The use of automata for
parsing is interesting because they allow us to separate the problem of the definition of parsing
algorithms from the problem of their execution. We have considered the following types of
automata:
• Top-down and bottom-up embedded push-down automata, two extensions of push-down
automata working on nested stacks. A new definition is provided in which the finite-state
control has been eliminated and several kinds of normalized transition have been defined,
preserving the equivalence with tree adjoining languages.
• Logical push-down automata restricted to the case of tree adjoining languages. Depending
on the set of allowed transitions, we obtain three different types of automata.
• Linear indexed automata, left-oriented and right-oriented to describe parsing strategies
in which adjuntions are recognized top-down and bottom-up, respectively, and stronglydriven
to define parsing strategies recognizing adjunctions top-down and/or bottom-up.
• 2-stack automata, an extension of push-down automata working on a pair of stacks, a
master stack driving the parsing process and an auxiliary stack restricting the set of
transitions that can be applied at a given moment. Strongly-driven 2-stack automata can
be used to describe bottom-up, top-down or mixed parsing strategies for tree adjoining
languages with respect to the recognition of the adjunctions. Bottom-up 2-stack automata
are specifically designed for parsing strategies recognizing adjunctions bottom-up.
Compilation schemata for these models of automata have been defined. A compilation
schema allow us to obtain the set of transitions corresponding to the implementation of a^ parsing
strategy for a given grammar.
All the presented automata can be executed in polynomial time with respect to the length
of the input string by applying tabulation techniques. A tabular technique makes possible to
interpret an automaton by means of the manipulation of collapsed representation of configurations
(called items) instead of actual configurations. Items are stored into a table in order to be
reused, avoiding redundant computations.
Finally, we have studied the relations among the diíferent classes of automata, the main
dif%rence being the storage structure used: embedded stacks, indices lists or coupled stacks.
According to the strategies that can be implemented, we can distinguish three kinds of automata:
bottom-up automata, including bottom-up embedded push-down automata, bottomup
restricted logic push-down automata, right-oriented linear indexed automata and bottom-up
2-stack automata; top-down automata, including (top-down) embedded push-down automata,
top-down restricted logic push-down automata and left-oriented linear indexed automata; and
general automata, including strongly-driven linear indexed automata and strongly-driven 2-
stack automata
Aplicación de las 2 estructuras a las gramáticas del lenguaje humano y representación gráfica de ambas
La teoría de las 2-estructuras [5] proporciona una infraestructura matemática para la descomposición y la transformación de grafos. Se trata de un formalismo muy potente y robusto que permite representar múltiples grafos en una sola estructura algebraica, una 2-estructura, y derivar de ella una descomposición única en 2-estructuras más simples. En este proyecto se ha llevado a cabo su estudio con dos finalidades:El diseño y la implementación de un paquete de software que sistematice el análisis, la transformación y la visualización de las principales estructuras involucradas en la teoría de las 2-estructuras. La investigación y el desarrollo de posibles aplicaciones de las 2-estructuras a las gramáticas usadas en el procesamiento del lenguaje humano (lenguaje natural).El lenguaje natural es casi en cualquier aspecto más complejo de lo esperado [6]. La sintaxis de muchos idiomas incluye reglas gramaticales que son sensibles al contexto, fenómenos cuyo procesado está muy lejos de tener soluciones eficientes (recordemos que los compiladores de lenguajes de programación sólo procesan un subconjunto muy simple de las gramáticas completamente libres del contexto y que el procesado de gramáticas sensibles al contexto es en general inviable). Las gramáticas suavemente sensibles al contexto (Mildly Context Sensitive Grammars, MCSG) pretenden capturar la sintaxis del lenguaje natural y conseguir su procesado eficiente [7,9]. Entre los lenguajes que describen estas gramáticas encontramos una subclase de gran interés por los siguientes tres motivos. Los lenguajes que contiene capturan un amplio espectro de las dependencias del lenguaje natural, son reconocibles en tiempo polinómico y existen cuatro formalismos independientes entre sí que los generan [8]. Son los lenguajes descritos por las gramáticas de adjunción de árboles (Tree Adjoining Grammars, TAG), las gramáticas de núcleo (Head Grammars, HG), las gramáticas lineales de índices (Linear Indexed Grammars, LIG) y las gramáticas categoriales combinatorias (Combinatory Categorial Grammars, CCG). En este trabajo se presentan dos resultados producto de la investigación sobre la aplicación de las 2-estructuras a algunas de las gramáticas mencionadas: Una extensión de las HG que asocia explícitamente un árbol derivado a las cadenas generadas apoyándose en las bases de las 2-estructuras. Un algoritmo que genera una gramática TAG a partir de una frase con dependencias anidadas y cruzadas (las capturables por el formalismo)
Adquisición y representación del conocimiento mediante procesamiento del lenguaje natural
[Resumen] Este trabajo introduce un marco para la recuperación de información combinando el procesamiento del lenguaje natural y conocimiento de un dominio, abordando la totalidad del proceso de creación, gestión e interrogación de una colección documental. La perspectiva empleada integra automáticamente conocimiento lingüístico en un modelo formal de representación semántica, directamente manejable por el sistema. Ello permite la construcción de algoritmos que simplifican las tareas de mantenimiento, proporcionan un acceso más flexible al usuario no especializado, y eliminan componentes subjetivas que lleven a comportamientos difícilmente predecibles.
La adquisición de conocimientos lingüísticos parte de un análisis de dependencias basado en un formalismo gramatical suavemente dependiente del contexto. Conjugamos de este modo eficacia computacional y potencia expresiva.
La interpretación formal de la semántica descansa en la noción de grafo conceptual, sirviendo de base para la representación de la colección y para las consultas que la interrogan. En este contexto, la propuesta resuelve la generación automática de estas representaciones a partir del conocimiento lingüístico adquirido de los textos y constituyen el punto de partida para su indexación.
Luego, se utilizan operaciones sobre grafos así como el principio de proyección y generalización para calcular y ordenar las respuestas, de tal manera que se considere la imprecisión intrínseca y el carácter incompleto de la recuperación. Además, el aspecto visual de los grafos permiten la construcción de interfaces de usuario amigables, conciliando precisión e intuición en su gestión. En este punto, la propuesta también engloba un marco de pruebas formales.[Resumo] Este traballo introduce un marco para a recuperación de información combinando procesamento da linguaxe natural e o coñecemento dun dominio, abordando a totalidade do proceso de creación, xestión e interrogación dunha colección documental. A perspectiva empregada integra automáticamente coñecementos lingüísticos nun modelo formal de representación semántica, directamente manexable polo sistema. Isto permite a construción de algoritmos que simplifican as tarefas de mantemento, proporcionan un acceso máis flexible ao usuario non especializado, e eliminan compoñentes subxectivos que levan a comportamentos difícilmente predicibles.
A adquisición de coñecementos lingüísticos parte duhna análise de dependencias basada nun formalismo gramatical suavemente dependente do contexto. Conxugamos deste modo eficacia computacional e potencia expresiva.
A interpretación formal da semántica descansa na noción de grafo conceptual, servindo de base para a representación da colección e para as consultas que a interrogan. Neste contexto, a proposta resolve a xeración automática destas representacións a partires do coñecemento lingüístico adquirido dos textos e constitúe o punto de partida para a súa indexación.
Logo, empréganse operacións sobre grafos así como o principio de proxección e xeneralización para calcular e ordenar as respostas, de tal maneira que se considere a imprecisión intrínseca e o carácter incompleto da recuperación. Ademáis, o aspecto visual dos grafos permiten a construción de interfaces de usuario amigables, conciliando precisión e intuición na súa xestión. Neste punto, a proposta tamén engloba un marco de probas formais.[Abstract] This thesis introduces a framework for information retrieval combining natural language processing and a domain knowledge, dealing with the whole process of creation, management and interrogation of a documental collection. The perspective used integrates automatically linguistic knowledge in a formal model of semantic representation directly manageable by the system. This allows the construction of algorithms that simplify maintenance tasks, provide more flexible access to non-specialist user, and eliminate subjective components that lead to hardly predictable behavior.
The linguistic knowledge adquisition starts from a dependency parse based on a midly context-sensitive grammatical formalism. In this way, we combine computational efficiency and expressive power.
The formal interpretation of the semantics is based on the notion of conceptual graph, providing a basis for the representation of the collection and for queries that interrogate. In this context, the proposal addresses the automatic generation of these representations from linguistic knowledge acquired from texts and constitute the starting point for indexing.
Then operations on graphs are used and the principle of projection and generalization to calculate and manage replies, so that is considered the inherent inaccuracy and incompleteness of the recovery. In addition, the visual aspect of graphs allow the construction of user-friendly interfaces, balancing precision and intuition in management. At this point, the proposal also includes a framework for formal testing
Análisis eficaz de gramáticas de cláusulas definidas
[Resumen] Dentro del análisis sintáctico, la utilización de formalismos gramaticales
valuados es, hoy por hoy, punto inconturnable 'en el desarrollo de
estrategias de análisis sintáctico en entornos de procesamiento del lenguaje
natural y en programación lógica, este último como representante del
paradigma declarativo. El presente trabajo se centra en el estudio y desarrollo
de técnicas de análisis sintáctico dirigidas, en última instancia, al
tratamiento de sistemas basados en el análisis de formalismos gramaticales
valuados donde, típicamente, el concepto de categoría gramatical se
extiende a un dominio posiblemente infinito. En estas circunstancias los
métodos clásicos de análisis sintáctico basados en la consideración de dominios
finitos no son aplicables, al no garantizar la correcta terminación
del proceso de cálculo. Referido al campo de las gramáticas lógicas, esta
situación fuerza la necesidad del desarrollo e implementación de técnicas
de análisis capaces de asegurar la completud de la resolucibn en el caso de
presencia de símbolos funcionales.
Igualmente cobra especial relevancia la consideración de las técnicas
de programación dinámica aplicadas al análisis sintáctico. Este hecho es
debido a la compactación de las representaĉiones, que convierte este paradigma
en una técnica eficiente para el tratamiento de cálculos con un
alto grado de redundancia, relacionados con fenómenos tales como el no
determinismo, habituales en formalismos gramaticales complejos.
Hasta el momento, las técnicas aplicadas se han basado fundamentalmente
en el concepto subyacente en la técnica de restricción. Esta permite
de forma simple y eficaz limitar el proceso de evaluación a aquellos nodos
del bosque de prueba en los que la ausencia d^e bucles a nivel de la unificación
está garantizada. La técnica no permite, sin embargo, una detección
automatizada de los nodos conflictivos ni su representación.
Nuestro acercamiento prevé la consideración tanto del problema de
la detección de ciclos a nivel de la unificación de argumentos, como su
representación explícita en los casos en los que ello sea posiblel .
Nuestro punto de partida será el estudio de las propiedades estáticas de
evaluación de los formalismos gramaticales considerados y su adecuación
a técnicas de evaluación dinámica, las mejor adaptadas al problema por
garantizar una compartición óptima de cálculos y estructuras.
Para ello estableceremos un marco descriptivo común sobre el cual desarrollar
y comparar diversas estrategias de análisis sintáctico. Este marco
también nos permitirá extender de manera intuitiva las técnicas incorporadas
al análisis de lenguajes a otros formalismos gramaticales valuados
Técnicas de análisis sintáctico robusto para la etiquetación del lenguaje natural
[Resumen] El objetivo último que persigue el Procesamiento del Lenguaje Natural es el perfecto análisis
y entendimiento de los lenguajes humanos. Actualmente, estamos todavía lejos de conseguir
este objetivo. Por esta razón, la mayoría de los esfuerzos de investigación de la lingiiística
computacional han sido dirigidos hacia tareas intermedias que dan sentido a alguna de las
múltiples características estructurales inherentes a los lenguajes, sin requerir un entendimiento
completo. Una de esas tareas es la asignación de categorías gramaticales a cada una de las
palabras del texto. Este proceso se denomina también etiquetación.
La eliminación de ambigiiedades es una tarea crucial durante el proceso de etiquetación de
un texto en lenguaje natural. Si tomamos aisladamente, por ejemplo, la palabra sobre, vemos
que puede tener varias categorías posibles en español: sustantivo, preposición o verbo. Sin
embargo, si examinamos el contexto en el que aparece dicha palabra, seguramente sólo una de
ellas es posible. Por otra parte, el interés se centra también en asignar una etiqueta a todas
aquellas palabras que aparecen en los textos, pero que no están presentes en nuestro diccionario,
y garantizar de alguna manera que ésa es la etiqueta correcta. Un buen rendimiento en esta fase
asegura la viabilidad de procesamientos posteriores tales como los análisis sintáctico y semántico.
Tradicionalmente, el problema de la etiquetación se aborda a partir de recursos lingiiísticos
bajo la forma de diccionarios y textos escritos, previamente etiquetados o no. Esta línea de
desarrollo se denomina lingiiística basada en corpus. Dichos textos se utilizan para ajustar
los parámetros de funcionamiento de los etiquetadores. Este proceso de ajuste se denomina
entrenamiento. Las técnicas tradicionales engloban métodos estocásticos, tales como los
modelos de Markov ocultos, los árboles de decisión o los modelos de máxima entropía, y
también aproximaciones basadas en reglas, tales como el aprendizaje de etiquetas basado en
transformaciones y dirigido por el error.
La mayoría de las herramientas basadas en estos paradigmas de etiquetación resultan ser de
propósito general, en el sentido de que pueden ser aplicadas a textos en cualquier idioma. Ésta es
una idea muy atractiva, pero surge la duda de si un etiquetador diseñado especialmente para una
lengua dada puede ofrecer mejores rendimientos o no. Por tanto, el primer objetivo del presente
trabajo consiste en implementar una nueva herramienta de etiquetación que permita integrar
información específica para el español, y posteriormente realizar una evaluación exhaustiva de
todos estos modelos. Este estudio es de gran interés ya en sí mismo, dado que los recursos
lingiiísticos disponibles para el español no abundan, y por tanto existen todavía muy pocas
cifras concretas que proporcionen una idea clara del comportamiento de los etiquetadores sobre
nuestro idioma.
Aún con todo esto, un pequeño porcentaje de palabras etiquetadas erróneamente (2-3%)
es una característica que está siempre presente en los sistemas de etiquetación puramente
estocásticos. Por esta razón, apoyamos la idea del uso de estos sistemas en combinación con
información sintáctica, esto es, con técnicas de análisis sintáctico robusto, y éste es precisamente el segundo de los objetivos del presente trabajo.
Cuando una frase es correcta, pero la gramática no es capaz de analizarla, todavía es posible
considerar los subárboles correspondientes a los análisis parciales de fragmentos válidos de la
frase. El posterior estudio de estos subárboles puede ser utilizado, por ejemplo, para completar
la gramática, generando automáticamente las reglas sintácticas necesarias para analizar la frase.
Éste es precisamente el objetivo más ambicioso del análisis sintáctico robusto. En nuestro
caso particular, resulta de especial interés la consideración de las etiquetas de las palabras
de dichos subárboles como información adicional de apoyo para las técnicas tradicionales de
etiquetación. La estrategia consiste en combinar esas subsecuencias de etiquetas para generar
varias etiquetaciones completas posibles de la frase en cuestión, y posteriormente aplicar un
filtro estadístico para elegir la secuencia global más probable.[Abstract] The ultimate goal of research on Natural Language Processing is to parse and understand human
languages. Currently, we are still far from achieving this goal. For this reason, much research
in computational linguistics has focussed on intermediate tasks that make sense of some of the
structure inherent in language without requiring complete understanding. One such task is
part-of-speech tagging, or simply tagging.
Elimination of lexical ambiguities is a crucial task during the process of tagging a text in
natural language. If we take in isolation, for instance, the word time, we can see that it has
several possible tags in English: substantive, adjective or verb. However, if we examine the
context in which the word appears, only one of the tags is possible. In addition, we are also
interested in being able to give a tag to all the words that appear in a text, but are not present in
our dictionary, and to guarantee somehow that this tag is the correct one. A good performance
at this stage will improve the viability of syntactic and semantic analysis.
Traditionally, the starting point for tagging is linguistic resources like dictionaries and
written texts, previously tagged or not. This research line is called corpus-based linguistics.
These corpora are used to tune the running parameters of the taggers. This tuning process
is called training. Traditional techniques involve stochastic methods, such as hidden Markov
models, decision trees or maximum entropy models, and also rule-based approaches, such as
transformation-based error-driven learning of tags.
Most tools based on these tagging paradigms are general purpose, to the eífect that they
can be applied to texts in any language. This is a very attractive idea, but begs the question
of whether a tagger specifically designed for a particular language is able to provide better
performance. Therefore, the first goal of the present work is to implement a new tagger able
to integrate specific information on Spanish, and then to perform an exhaustive evaluation of
all the above-mentioned models. This study is in itself very interesting, because there are very
few available linguistic resources for Spanish and very few concrete data about the behaviour of
taggers on our language.
However, a small percentage of wrongly tagged words (2-3%) is a feature that is always
present in pure stochastic taggers. For this reason we support the idea of using these in
combination with syntactic information, that is, with robust parsing techniques, and this is
the second goal of the present work.
When a sentence is correct and the grammar is not able to parse it, it is still possible to
consider all subtrees corresponding to all partial analyses of valid fragments of the sentence. A
later study of these subtrees can be used, for instance, to complete the grammar by automatically
generating all the syntactic rules we need to parse the sentence. This is in fact the most ambitious
goal in robust parsing. In our particular case, it is important to consider all the word tags of the
subtrees in question as additional information that can be useful for traditional techniques of
tagging. Our strategy combines these subsequences of tags in order to generate several complete taggings for a given sentence, and then applies a probabilistic filter to choose the most probable
one
Interpretación tabular de autómatas para lenguajes de adjunción de árboles
Tesis doctoral en informática realizada por Miguel A. Alonso Pardo bajo la dirección de los doctores Manuel Vilares Ferro (Universidade da Coruña) y Eric Villemonte de la Clergerie (INRIA, Francia). El acto de defensa de la tesis tuvo lugar el 25 de septiembre de 2000 ante el tribunal formado por los doctores Josep Miró (Universitat de les Illes Balears), José Mira Mira (UNED), Pierre Boullier (INRIA, Francia), Mark-Jan Nederhof (DFKI, Alemania) y Antonio Blanco Ferro (Universidade da Coruña). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad.PhD Thesis in Computer Science written by Miguel A. Alonso Pardo under the supervision of Dr. Manuel Vilares Ferro (Universidade da Coruña, Spain) and Dr. Eric Villemonte de la Clergerie (INRIA, France). The author was examined in September 25, 2000 by the commitee formed by Dr. Josep Miró (Universitat de les Illes Balears, Spain), Dr. José Mira Mira (UNED), Dr. Pierre Boullier (INRIA, France), Dr. Mark-Jan Nederhof (DFKI, Germany) and Dr. Antonio Blanco Ferro (Universidade da Coruña, Spain). The grade obtained was Sobresaliente Cum Laude
Mejoras en la usabilidad de la web a través de una estructura complementaria
La Web ha motivado la generación de herramientas que permiten, con distintos grados de sofisticación y precisión, manipular sus contenidos. Para ello, tratan una serie de problemas, relacionados con la naturaleza imperfecta y cambiante de todas las actividades humanas. Ésta se refleja en fenómenos como las ambigüedades, contradicciones y errores de los textos almacenados. Esta tesis presenta una propuesta para complementar la administración de contenidos en la Web y de esta manera facilitar el proceso de recuperación de información. Se presenta un prototipo, denominado Web Intelligent Handler (WIH), que implementa una serie de algoritmos básicos para manipular algunas características morfosintácticas de textos en castellano y, en base a ellas, obtener una representación resumida y alternativa de su contenido. En este contexto, se define una nueva métrica de ponderación para reflejar parte de la esencia morfosintáctica de los sintagmas. Además se define un esquema de interacción entre los módulos para regular la explotación de los textos. También se explora la capacidad de los algoritmos propuestos en el tratamiento de los textos, considerándolos como una colección de sintagmas, sujeta a factores tales como contradicciones, ambigüedades y errores. Otro aporte de esta tesis es la posibilidad de evaluar matemáticamente y de manera automática tipos de estilos de texto y perfiles de escritura. Se proponen los estilos literario, técnico y mensajes. También se proponen los perfiles documento, foro de intercambio, índice Web y texto de sitio blog. Se evalúan los tres estilos y los cuatro perfiles mencionados, los que se comportan como distintos grados de una escala de estilos y perfiles, respectivamente, cuando se los evalúa con la métrica morfosintáctica aquí definida. Adicionalmente, utilizando la misma métrica, es posible realizar una valoración aproximada y automática de la calidad de cualquier tipo de texto. Esta calificación resulta ser invariante a la cantidad de palabras, temática y perfil, pero relacionada con el estilo del escrito en cuestión.The Web motivated a set of tools for content handling with several levels of sophistication and precision. To do so, they deal with many unsolved problems in saved texts. All of them are related to the mutable and imperfect essence of human beings such as ambiguities, contradictions and misspellings. This theses presents a proposal to complement the Web content management and therefore to provide support to the information retrieval activity. A prototype named Web Intelligent Handler (WIH) is introduced to implement a set of algorithms that manage some morpho-syntactical features in Spanish texts. These features are also used to get a brief and alternate representation of its content. Within this framework, a new weighting metric is designed to reflect part of the syntagm morpho-syntactical essence. A module interaction approach is also outlined to rule the text processing output. Besides, this thesis analyzes the algorithms ability to handle texts considering them as a collection of syntagms affected by certain factors such as contradictions, ambiguities and misspellings. Perhaps, the main contribution of this thesis is the possibility to automatically mathematical evaluation of text styles and profiles. Three initial three styles are proposed here: literary, technical and message. Furthermore, the following writer profiles are proposed also: document, foro, Web-index and blog. All the three styles and four profiles were evaluated. They behave respectively as a part of a graduated scale of styles and profiles when the morpho-syntactical metric defined here is used. It is also possible to perform a kind of automatic rough text quality valuation. This is invariant to the text word quantity, topic and profile, but it is related to its style.Facultad de Informátic