33 research outputs found

    Construcción semiautomática de un documento LEL utilizando técnicas de procesamiento de lenguaje natural

    Get PDF
    Los analistas deben consumir y analizar una gran cantidad de información sobre el dominio y requerimientos de un proyecto para construir los diferentes documentos de ingeniería de software que se utilizan a lo largo del ciclo de vida de desarrollo. La calidad de estos documentos son de vital importancia para el éxito de un desarrollo e implica un gran esfuerzo por parte de los analistas. Por esta razón, esta tesis propone una herramienta que sea capaz de tamizar y sintetizar toda la información de un dominio de manera tal que asista a los analistas y facilite su trabajo. En este trabajo se busco facilitar el esfuerzo de construir documentos LEL, los cuales son glosarios que especifican de manera detallada cada elemento de un dominio (símbolos) y sus posibles relaciones entre si (impactos), con el objetivo de ser un nexo comunicativo entre los analistas y los clientes. Para lograr esto se implementó una solución semi-automatizada para crear documentos LEL a partir de texto ingresado por el usuario, donde la información que se toma como entrada debe contener detalles de requerimientos o de dominio de una aplicación. Finalmente el trabajo muestra los resultados del algoritmo de aprendizaje automático utilizado y el análisis comparativo de los resultados esperados con los obtenidos por la herramienta, donde se detalla el porqué de los errores y aciertos de los mismos.Facultad de Informátic

    El lenguaje económico en los tiempos de la crisis global: un estudio longitudinal de análisis de sentimiento

    Get PDF
    El siguiente paso fue el análisis de datos, en el cual se realiza el análisis de sentimiento los conjuntos de datos. El análisis consta de tres partes: (a) una tabla de resultados estadísticos descriptivos longitudinales relativos a las puntuaciones de sentimiento, (b) una tabla anual de colocaciones y (c) una discusión sobre los hallazgos en el corpus a partir de la observación de rankings anuales de colocaciones, con la intención de triangular los datos obtenidos. Principalmente, se evidencian dos hechos: (1) Los términos se convierten en palabras evento dado el enorme aumento de su frecuencia de uso debido a los eventos clave de la crisis. A partir de este fenómeno se producen cambios significativos en el uso (la orientación semántica de colocaciones varía) y frecuentemente suelen tiene un nivel menor de especialización. (2) Las medias anuales de la orientación semántica de un término contextualizado permiten observar fluctuaciones importantes en el sentimiento embebido en el discurso. Una triangulación de los datos cuantitativos con sus colocaciones más significativas y los eventos relacionados con la Gran Recesión permite concluir que la orientación semántica de los términos del dominio económico-financiero es muy susceptible de variar a medida que se desarrollaron los hechos de la crisis financiera. Fecha de lectura de Tesis Doctoral: 20 de septiembre 2019Esta tesis se centra en el estudio longitudinal de la influencia de los eventos en la forma en la orientación semántica en la terminología económica. En este caso se estudiará el periodo de la Gran Recesión, un acontecimiento de primer orden que generó una gran cantidad de información textual que se ha aprovechado como fuente de datos susceptibles de ser analizados automáticamente. El análisis de sentimiento es una disciplina del procesamiento del lenguaje natural que se ocupa del tratamiento computacional de la opinión de la subjetividad en los textos. Por ello, el objetivo general de esta tesis es analizar las fluctuaciones en la orientación semántica de una serie de términos económicos dentro del período 2007-2015 a través de la caracterización del impacto de los eventos de mayor orden en las variaciones semánticas de las unidades léxicas. Entre sus objetivos específicos están: (1) recopilar un lexicón de sentimiento de dominio económico-financiero en lengua inglesa a partir de un corpus de noticias económicas diseñado ad-hoc, (2) definir un conjunto de datos longitudinal en forma de oraciones que contienen los términos de estudio y que serán el input del análisis de sentimiento, (3) tras analizar los una serie de términos económicos-financieros, identificar los eventos que han acompañado a cambios en su orientación semántica y (4) analizar las posibles variaciones en la prosodia semántica. Para llevar a cabo el análisis automático, se desarrolló LexiEcon, un lexicón plug-in de dominio específico para la lengua inglesa adaptado para la suite Lingmotif. Dada su amplitud, los resultados de cobertura y exhaustividad de su evaluación fueron muy satisfactorios (F1 0,735). Esta cifra supone alrededor de un 20% más que los resultados que ofrece Lingmotif sin léxico específico cuando clasifica los textos del dominio económico-financiero

    Métodos de selección léxica aplicados a la enseñanza. El vocabulario fundamental del español

    Get PDF
    [ES]El objetivo principal de este trabajo es hallar un método de selección y unión del léxico frecuente y el disponible para la elaboración del vocabulario fundamental. Para ello estudiamos ambas líneas de trabajo, los listados de frecuencia léxica derivados de la lingüística del corpus y los estudios sobre disponibilidad léxica, con la intención de entender cuáles son sus resultados y las unidades léxicas a las que llegamos en cada caso. Consideramos que la aplicación principal de este vocabulario fundamental es la enseñanza-aprendizaje de español como lengua extranjera, con lo que en los dos primeros capítulos estudiamos cuestiones relacionadas con ella y con las características del vocabulario, la competencia léxica, los métodos y enfoques didácticos, etc. Como el marco en el que se encuadra la elaboración de un vocabulario fundamental es la selección léxica, estudiamos los principales modelos que existen y cómo se suele llevar a cabo en la práctica. Por nuestra parte, nos centramos en los métodos objetivos de selección léxica, ya que en todo momento buscamos criterios científicos además de eficaces. Lo conseguimos gracias a procedimientos estadísticos y matemáticos. Para determinar el número de palabras que son recomendables para cada nivel del Marco común europeo de referencia para las lenguas, recurrimos a estudios sobre los porcentajes de cobertura léxica de las voces frecuentes, los resultados sobre la comprensión textual en estudiantes de inglés como lengua extranjera y la hipótesis sobre la existencia de un umbral léxico necesario para que se dé la comprensión oral y escrita de modo óptimo. Con ello establecemos un intervalo de unidades que se deben enseñar en cada nivel de lengua. Finalmente, determinamos el número de palabras que debe tener el vocabulario fundamental (orientado a un nivel B1 del Marco) y los parámetros para seleccionar los términos más usuales y los más disponibles, que obtenemos de tres obras fijadas previamente: un listado con las 5.000 palabras más frecuentes y dos listados de disponibilidad léxica de diferentes características. El resultado es el vocabulario fundamental del español, cuyo esbozo acompañamos de una definición del concepto y una historia de sus orígenes y anteriores propuestas

    Mejoras en la usabilidad de la web a través de una estructura complementaria

    Get PDF
    La Web ha motivado la generación de herramientas que permiten, con distintos grados de sofisticación y precisión, manipular sus contenidos. Para ello, tratan una serie de problemas, relacionados con la naturaleza imperfecta y cambiante de todas las actividades humanas. Ésta se refleja en fenómenos como las ambigüedades, contradicciones y errores de los textos almacenados. Esta tesis presenta una propuesta para complementar la administración de contenidos en la Web y de esta manera facilitar el proceso de recuperación de información. Se presenta un prototipo, denominado Web Intelligent Handler (WIH), que implementa una serie de algoritmos básicos para manipular algunas características morfosintácticas de textos en castellano y, en base a ellas, obtener una representación resumida y alternativa de su contenido. En este contexto, se define una nueva métrica de ponderación para reflejar parte de la esencia morfosintáctica de los sintagmas. Además se define un esquema de interacción entre los módulos para regular la explotación de los textos. También se explora la capacidad de los algoritmos propuestos en el tratamiento de los textos, considerándolos como una colección de sintagmas, sujeta a factores tales como contradicciones, ambigüedades y errores. Otro aporte de esta tesis es la posibilidad de evaluar matemáticamente y de manera automática tipos de estilos de texto y perfiles de escritura. Se proponen los estilos literario, técnico y mensajes. También se proponen los perfiles documento, foro de intercambio, índice Web y texto de sitio blog. Se evalúan los tres estilos y los cuatro perfiles mencionados, los que se comportan como distintos grados de una escala de estilos y perfiles, respectivamente, cuando se los evalúa con la métrica morfosintáctica aquí definida. Adicionalmente, utilizando la misma métrica, es posible realizar una valoración aproximada y automática de la calidad de cualquier tipo de texto. Esta calificación resulta ser invariante a la cantidad de palabras, temática y perfil, pero relacionada con el estilo del escrito en cuestión.The Web motivated a set of tools for content handling with several levels of sophistication and precision. To do so, they deal with many unsolved problems in saved texts. All of them are related to the mutable and imperfect essence of human beings such as ambiguities, contradictions and misspellings. This theses presents a proposal to complement the Web content management and therefore to provide support to the information retrieval activity. A prototype named Web Intelligent Handler (WIH) is introduced to implement a set of algorithms that manage some morpho-syntactical features in Spanish texts. These features are also used to get a brief and alternate representation of its content. Within this framework, a new weighting metric is designed to reflect part of the syntagm morpho-syntactical essence. A module interaction approach is also outlined to rule the text processing output. Besides, this thesis analyzes the algorithms ability to handle texts considering them as a collection of syntagms affected by certain factors such as contradictions, ambiguities and misspellings. Perhaps, the main contribution of this thesis is the possibility to automatically mathematical evaluation of text styles and profiles. Three initial three styles are proposed here: literary, technical and message. Furthermore, the following writer profiles are proposed also: document, foro, Web-index and blog. All the three styles and four profiles were evaluated. They behave respectively as a part of a graduated scale of styles and profiles when the morpho-syntactical metric defined here is used. It is also possible to perform a kind of automatic rough text quality valuation. This is invariant to the text word quantity, topic and profile, but it is related to its style.Facultad de Informátic

    Significado, distribución y frecuencia de la categoría preposicional en español. Una aproximación computacional

    Get PDF
    [spa] La categoría preposicional ha sido, tradicionalmente, una clase de palabra provista de rasgos lingüísticos y conductas gramaticales controvertidas. En la tesis, Significado, distribución y frecuencia de la categoría preposicional del español. Una aproximación computacional, se examina la naturaleza de esa controversia a la luz de una metodología cuantitativa, computacional y de lingüística de corpus. La brecha más inexplicada en la historia de su análisis gramatical ha sido cómo identificar su significado. Con frecuencia las nociones descriptivas sobre la semántica de la preposición han sido observadas como subsidiarias de su papel sintáctico, vía caso o asignación de papeles temáticos. Este hecho, sin embargo, no es más que el reconocimiento de que su significado incide, también, en su tarea global dentro de la gramática. Desde una concepción neodistribucionalista, según la cual el significado de las piezas o elementos lingüísticos se encuentra en su distribución contextual, la hipótesis que se plantea es que esa expresión semántica de las preposiciones en español se produce de manera gradual. La denominada Hipótesis Gradual del Significado, aplicada a la categoría preposicional en español, nos permite establecer subclases preposicionales, desde la funcionalidad hasta la lexicidad, pasado por clases intermedias como semifuncionales y semiléxicas. La justificación empírica de la Hipótesis Gradual del Significado se realiza a partir de cuatro experimentos. El primero de ellos se inserta en la metodología del aprendizaje automático (machine learning). Para ello, y usando la técnica del clustering, observamos un conjunto de 79.097 tripletas de la forma X – P – Z, donde P es una preposición del español –basadas en sintagmas preposicionales complementos-. Estas tripletas dependen de una serie de verbos de movimiento del español para las preposiciones a, hacia y hasta extraídas de cuatro corpus lingüísticos muy reconocidos del español. Una vez obtenidas las agrupaciones automáticas se evalúan porcentualmente a partir de la coincidencia entre las predicciones del anotador humano –las clases preposicionales sugeridas- y de la máquina –los clusters-. En el segundo y el tercer experimentos utilizamos otra metodología y acudimos a la medición de la entropía –magnitud de la Teoría de la Información-. En el segundo clasificamos los nombres de 3.898 tripletas que dependen de una serie de verbos del español que representan la mayoría de campos semánticos; y en el tercero son 3903 que complementan a otros nombres. Esta clasificación de los nombres se realiza a partir de una propuesta de seis tipos de categorías semánticas: Animado, Inanimado, Entidad abstracta, Locativo, Temporal y Evento. Una vez clasificados los nombres se mide su organización entrópica y se verifica que existe una correlación entre el grado de entropía y la clase preposicional: a mayor entropía mayor significado. El cuarto experimento parte del uso preposicional. A partir de un test de 90 respuestas con las clases preposicionales de la hipótesis se recogen las respuestas de 366 participantes y se analiza el grado de variación de esas respuestas según la clase preposicional. De nuevo volvemos a usar la entropía como índice de identificación del significado. Sometemos los resultados a ciertas pruebas de control estadístico para verificar la fiabilidad de las muestras, de la significancia y de la coincidencia entre observadores (coeficiente kappa de Cohen). El balance de los cuatro experimentos –a través de los resultados- es favorable a la predicción de la hipótesis. Asimismo, la diversidad de herramientas de análisis es una forma metodológicamente robusta para la investigación y sus conclusiones. Finalmente, se indica que la hipótesis abre perspectivas de futuro en áreas como el contraste interlingüístico –de familias tipológicamente diversas en la expresión adposicional-, o la afasiología como disciplina que se interroga por las relaciones entre errores y valores gramaticales.[eng] The prepositional category has traditionally been a word group endowed controversial traits concerning both its linguistic features and its grammatical behaviors. In this thesis the controversy is examined from a quantitative, computational and linguistic methodology point of wiew. The most unexplained gap in the story of this difficulty of analysis lies in the fact of how its meaning can be identified. From a neo-distributionalism conception, according to which the meaning of the linguistic pieces is in their contextual distribution, the hypothesis that arises is that this semantic expression of the prepositions in Spanish is gradual. The so-called Gradual Meaning Hypothesis establishes four prepositional subclasses, from functional to lexical, through intermediate phases such as semi-functional and semi-lexical. The empirical justification of the Gradual Hypothesis of Meaning is performed with four experiments. The first one experiment is inserted in the machine learning methodology. To do this, and using the clustering technique, we observed a set of 79,097 triplets of the form X - P - Z, where P is a preposition of Spanish - based on complementary prepositional phrases. They are triplets with the prepositions a, hacia and hasta of movement verbs, and they are extracted from four well-known linguistic corpus of Spanish. Once the automatic groupings have been obtained, we indicate to what extent, the percentage between the predictions of the human scorer - the suggested prepositional classes - and the machine - the clusters - are confirmed. In the second and third experiments, we changed our methodology and turned to the measurement of entropy –variable in Information Theory-. In the second onewe classify the names of 3,898 triplets that depend on verbs that appear on most semantic fields in Spanish; and in the third one we classify 3903 triplets that complement other names. This name classification is based on a proposal of six types of semantic categories: Animate, Inanimate, Abstract Entity, Locative, Temporary and Event. Once the names are classified, their entropic organization is measured and it is verified that there is a correlation between the degree of entropy and the prepositional class: the greater the entropy, the greater the meaning. The fourth experiment starts with prepositional use. From a test the degree of variation of these responses is analyzed according to the prepositional class. Again we use entropy as an index of identification of meaning. The balance of the four experiments - through the results - is favorable to the prediction of the hypothesis. The diversity of analysis tools is a methodologically robust way for the research and its conclusions

    Perspectivas actuales de la investigación en lingüística: entre tradición y modernidad

    Get PDF
    El 2020 fue un año de excepción. Las diversas estrategias implementadas a nivel global para el manejo de la pandemia por el Covid-19 afectaciones de diversa profundidad, duración e impacto en todos los niveles de la vida cotidiana y laboral, a las que la academia no fue ajena. Los congresos, espacios de encuentro y discusión de la comunidad mundial de docentes e investigadores, fueron los primeros sacrificados, dejando sin tribuna a cientos de trabajos que ya estaban preparados y listos para su presentación

    The text specialization degree: features based on the sociocognitive perception of terminology and discourse relations

    Get PDF
    Este trabajo es un estudio empírico descriptivo correlacional que tiene por objetivo principal caracterizar el grado de especialización textual, particularmente su léxico y relación emisor-destinatario, a partir de un corpus de textos analizados por cuatro grupos de informantes, usando como base la teoría sociocognitiva de la percepción y el aprendizaje automático. Esta tesis doctoral viene motivada por la escasez de estudios que pretenden estudiar el grado de especialización textual, en concreto, sus condicionantes y límites y, especialmente, el grado intermedio: el texto semiespecializado. Las hipótesis esbozadas están relacionadas con: (1) la posibilidad de encontrar pruebas lingüísticas que se ajusten a cada uno de los grados de especialización; (2) la relación de similitud entre texto semiespecializado y texto no especializado; (3) la relevancia del tema o el tipo textual en la discriminación del grado de especialización; (4) la similitud perceptiva de los usuarios a la hora de distinguir el grado; y (5) la relevancia de la relación emisor-destinatario y la terminología como factores de distinción del grado de especialización. En este trabajo tomamos como marco de estudio la teoría de la comunicación para estudiar elementos diversos como son el texto, la tipología textual, el campo de la terminología, el término como objeto de estudio, la noción de valor especializado, el conocimiento especializado, los procedimientos de reformulación y las características vinculadas hasta ahora al discurso especializado, así como las propuestas de clasificación binaria y continuum. Nuestro material de trabajo está compuesto por un corpus que cuenta con 315 textos y medio millón de palabras. Su representatividad cualitativa para estudiar el grado de especialización textual reside en que parte de tres temas diferentes (reconocidos socialmente, como son el derecho, la informática y la medicina). Posteriormente, hemos seleccionado siete tipos textuales posibles en los tres temas (el artículo en revista científica, la entrada de blog, la revista o web de divulgación especializada, la noticia, la entrevista, la participación en foro y la tesis doctoral). De esta combinación de tipo textual y tema se han recopilado 15 textos. En dicho corpus se estudian diversas variables, tanto cuantitativas como cualitativas. Entre las variables cualitativas encontramos las variables nominales (el tipo de texto y el tema del texto). Entre las variables cualitativas ordinales encontramos el emisor, el destinatario, y la clase de texto. Entre las variables cuantitativas, se analizan el número de formas léxicas, la ratio estandarizada entre tipos de formas léxicas y el total de formas léxicas, el índice de densidad terminológica, el número de procedimientos de reformulación y el índice de reformulación. Parte de estas variables son proporcionadas por el investigador, mientras que otra parte es proporcionada por cuatro grupos de informantes (estudiante, usuario medio, traductor e investigador), lo que arroja una base de datos con 1260 patrones que es analizada mediante la correlación manual de dos o más variables y mediante aprendizaje automático. El análisis mediante técnicas de aprendizaje automático emplea los algoritmos de red bayesiana, de regresión logística, el árbol de decisión J48 y el algoritmo de agrupamiento no supervisado k-means mediante el software WEKA. Las principales conclusiones sugieren la relevancia de las formas léxicas semicrípticas y crípticas en la discriminación de los polos opuestos del grado de especialización, así como el destinatario como factor regulador de la configuración discursiva de los textos cuando se atiende al grado. También se han identificado las similitudes del texto semiespecializado con los otros dos grados, principalmente con el texto divulgativo (desde un punto de vista formal) y con el texto especializado (desde un punto de vista semántico).This work is an empirical descriptive correlational study whose main objective is to depict the text specialization degree, especially its lexical forms and speaker-recipient relationship, based on a corpus of texts analyzed by four groups of informants, using as a basis the sociocognitive theory of perception and machine learning. This doctoral thesis is motivated by the scarcity of studies that intend to analyze the text specialization degree, in particular, its determining factors and limits and, especially, the intermediate degree: the semi-specialized text. The outlined hypotheses are related to: (1) the possibility of finding linguistic evidences that may correspond to each of the specialization degrees; (2) the relationship of similarity between semi-specialized text and non-specialized text; (3) the relevance of the topic or the type of text in the discrimination of specialization degree; (4) the perceptive similarity of the users when it comes to distinguishing the specialization degree; and (5) the relevance of the speaker-recipient relationship and the terminology as factors of distinction of the specialization degree. In this work, the theory of communication is taken as a frame of reference to study diverse elements such as text, textual typology, the field of terminology, the term as an object of study, the notion of specialized value, specialized knowledge, reformulation methods and the characteristics linked up to now for the specialized discourse, as well as binary and continuum classification proposals. Our material of study is composed of a corpus of 315 texts and half a million words. Its qualitative representativeness to study the text specialization degree lies in that it is based on three different subjects (socially recognized, such as law, computer science and medicine). Subsequently, seven possible types of texts in these three subjects have been selected (article in scientific journal, blog post, scientific-divulgation magazine or web, news, interview, participation in a forum and doctoral thesis). From this combination of type of text and subject, 15 texts have been collected. In this corpus several variables are studied, both quantitative and qualitative. Among the qualitative variables the nominal variables are found: the type of text and the subject of the text. Among ordinal qualitative variables the speaker, the recipient, and the text class are studied. Among the quantitative variables, the number of lexical forms, the standardized ratio between types of lexical forms and the total of lexical forms, the terminological density index, the number of reformulation means and the reformulation index are analyzed. Part of these variables are provided by the researcher, while another part is provided by four groups of informants (student, average user, translator and researcher), which yields a database with 1260 patterns that is analyzed through the manual correlation of two or more variables and through machine learning. The analysis using machine learning techniques employs Bayesian network, logistic regression algorithms, the J48 decision tree and the unsupervised k-means clustering algorithm using the WEKA software. The main conclusions suggest the relevance of semi-cryptic and cryptic lexical forms in the discrimination of the opposite poles of the specialization degree, as well as the recipient as a regulating factor of the discursive configuration of the texts when attending the degree. The similarities of the semi-specialized text with the other two degrees have also been identified, mainly with the non-specialized text (from a formal point of view) and with the specialized text (from a semantic point of view)

    Realidad simulada como herramienta de enseñanza-aprendizaje en Criminología

    Get PDF
    El diseño de prácticas docentes de realidad simulada constituye un avance en el proceso de enseñanza-aprendizaje en el alumnado de Criminología. Mediante este tipo de actividades, los estudiantes desarrollan las competencias académicas y profesionales adquiridas durante su formación, recreando contextos y situaciones reales en un entorno de aprendizaje. El objetivo de este trabajo es evaluar las competencias adquiridas por el alumnado de último curso del Grado en Criminología, tras la implementación de una práctica de realidad simulada basada en la recreación de un Juicio donde el alumnado deberá poner en práctica los conocimientos y técnicas de evaluación criminológica aplicados al ámbito de la Justicia Penal. Se describen los resultados de aprendizaje y la satisfacción del alumnado con la incorporación de esta experiencia piloto mediante el análisis de respuestas de un cuestionario informatizado ad hoc

    La transición educativa hacia el mundo universitario. Historia de un proyecto que toca su fin

    Get PDF
    La orientación educativa es un tema del que queda mucho por desarrollar aun en el ámbito universitario. Y el punto de partida podríamos ubicarlo en la transición desde la Educación Secundaria. Así lo entiende un grupo de profesionales de la educación de estos dos ámbitos educativos, que hace ocho años se constituyeron en una Red para desarrollar distintos proyectos de investigación sobre esta temática. En este documento nos planteamos hacer un estudio sobre el funcionamiento de esta Red, las aportaciones que ha realizado a la comunidad científica y lo que ha supuesto para sus integrantes la participación en estos proyectos. Para ello analizaremos la metodología de trabajo seguida por la Red, haremos un estudio bibliográfico sobre las publicaciones en las que la Red ha participado con sus aportaciones, investigaremos las aportaciones externas de la Red (Congresos, Programa de Acción Tutorial y Centros de Secundaria) y realizaremos una valoración individual de cada miembro de este proyecto que toca a su fin. Podemos concluir que en estos ocho años hemos introducido un nuevo concepto en el entorno universitario, hemos aportado ideas interesantes para poner en marcha procesos de orientación en estos ámbitos y nos hemos enriquecido personal y profesionalmente
    corecore