
Adaptación del Stanford Parser al español


El presente Trabajo Fin de Grado tiene como objetivo entender y mejorar la adaptación del analizador sintáctico realizado por la Universidad de Stanford para la lengua española. Este software es entrenado con un modelo que analiza y clasifica frases a partir del análisis más probable. Su cometido es analizar las sentencias proporcionadas para construir la estructura interna de la oración mediante agrupación de términos en sintagmas, clausulas y oraciones. En el documento se explica la necesidad de la creación de herramientas para subsanar una de las limitaciones principales que carece el software, como es la validación y obtención de rendimiento de los análisis realizados. El analizador sintáctico en el que se centra este trabajo consiste en un clasificador que tiene que ser entrenado mediante un conjunto de frases de las que se determina el resultado del análisis sintáctico. En esta línea se trabaja con la hipótesis de que un mayor entrenamiento se verá reflejado en mejor rendimiento. Por otra parte, se afinan las etiquetas utilizadas en la clasificación previa de datos utilizados para el entrenamiento, consiguiendo así un mejor rendimiento. Además, para mejorar los datos de entrenamiento se ha desarrollado una herramienta específica para aumentar el número de datos de forma artificial y estudiar la hipótesis con la que se trabaja. Aunque en este trabajo se llegan a varias conclusiones sobre el funcionamiento del software y del trato que realiza de las etiquetas, se puede seguir trabajando. De manera que este proyecto abre las puertas a futuras investigaciones, aportando información sobre cómo mejorar la adaptación al español a partir de los archivos empleados para la ejecución del software.This Bachelor Thesis has the goal to understand and develop the Spanish version of the parser starring by Stanford University. This software is based on a model that analyzes and classifies sentences from the most likelihood analysis. Software´s main role is to parse given sentences to build its internal structure distinguishing between syntagmas, clause and phrase. The following essay discuss the need of creating new main tools to overcome the limitations that, nowadays, are in the software. The main limitations that this version of the software host are the validation and extraction of the performance from test results. The parser, which this paper is focused, consist on a classifier that has to be trained by a group of sentences, from which the result of the syntactic analysis comes. The hypothesis under this line of work stays that a higher training leads to a mayor efficiency. On the other hand, we tune the tags used in the previous classification of data that has been used for the training, achieving a better performance. Moreover, to improve the train data there has been developed a specific tool to increase the number of artificial data and to study the stated hypothesis. Finally, going through the main conclusions carried by this thesis on the performance of the mentioned software and over the treatment of the tags; we can observe that they can be key matters to future research projects. Providing more information in the development of the Spanish version, it will adjust these thesis conclusions themselves and so, it would allow go further in the improvement of the Stanford Parser

    Similar works