922 research outputs found

    Una herramienta basada en terminologías estandarizadas para la anotación semántica de información textual

    Get PDF
    El objetivo de esta tesis es el diseño e implementación de técnicas léxicas, sintácticas y semánticas que permitan aprovechar al máximo los recursos de conocimiento disponibles para mejorar la extracción y el análisis de la información relevante contenida en las publicaciones científicas

    Características de la marca de dependencia terminológica semántica en un corpus de neónimos en contexto Inglés-Español

    Get PDF
    El presente estudio pretende abordar la siguiente problemática ¿cuáles son las características de la marca de dependencia terminológica semántica en la traducción de un corpus de neónimos en contexto? Principalmente, se pretendió caracterizar la marca de dependencia terminológica semántica en la traducción de un corpus de neónimos en contexto, describiendo las relaciones semánticas de los neónimos de la TO en inglés y su respectiva traducción al español, las relaciones semánticas de los neónimos en TO y TM con destino a su categorización y de establecer el grado de dependencia terminológica en corpus de la temática en nanotecnología de los TM con respecto a TO. Metodología: El modelo metodológico parte un trabajo de Narváez, et. al. (2015) y del uso de diversos elementos metodológicos derivados de los trabajos de Pustejovsky en una combinatoria metodológica con los modelos de Oster (2003), para análisis neológico, de Sanz (2012) en el análisis de la estructura morfológica y de Sánchez y García (2014) en cuanto a la gradación de dependencia terminológica. Resultados: Se logró evidenciar un bajo grado de dependencia observable en los corpus analizados, lo cual puede significar quizá la persistencia y sistematicidad de préstamos lingüísticos como una característica de la neonímica como elemento comunicacional de intercambio en temas nanotecnológicos entre las dos lenguas. Conclusiones: Estos resultados podrían contribuir con la investigación interdisciplinar en traductología aunque se requiere una mayor profundización del análisis, lo que habrá de permitir continuidad en el estudio de la formación secundaria de términos, y de la dependencia terminológica.The current research aims to find out what are the characteristics of the brand of semantic terminological dependence in the translation of a corpus of neonyms in context? The research objectives were focused on characterizing the traces of semantic terminological dependence in the translation of a corpus of neonyms in context, describing the semantic relations of the TO neononyms in English and their respective translation into Spanish, the semantic relations of the neonisms in TO and TM for its categorization and to establish the degree of terminological dependence in corpus of the nanotechnology topic of TM with respect to TO. Methodology: The methodological model based on Narváez, et. al. (2015) and the use of various methodological elements derived from the works of Pustejovsky in a methodological combinatorial with the models of Oster (2003), for neological analysis, of Sanz (2012) in the analysis of the morphological structure and of Sánchez and García (2014). as for the gradation of terminological dependence. Results: The results show a low degree of observable dependence in the corpus analyzed, which may perhaps mean the persistence and systematicity of language loans as a characteristic of neonimics as a communicational element of exchange in nanotechnological issues between the two languages. Conclusions: These results could contribute to the interdisciplinary research in translation studies, although a deeper analysis is required, which will allow continuity in the study of the secondary formation of terms, and terminological dependence

    Metodología orientada a la optimización automática de la calidad de los requisitos

    Get PDF
    Las fases iniciales en los proyectos software marcan su desarrollo y resultado final. Defectos provocados en las fases iniciales afectan considerablemente a la calidad y alteran las fechas de finalización. Las organizaciones internacionales se han hecho eco de este problema y se dedican gran cantidad de esfuerzos en investigación para mejorar la calidad en las primeras etapas del desarrollo. Con esta iniciativa surge la ingeniería de requisitos, disciplina encargada de proporcionar procesos de ingeniería en el desarrollo de especificaciones de requisitos necesarias para definir proyectos con cierta complejidad. Por ello han surgido numerosas guías y estándares para asegurar la calidad de los requisitos que componen las especificaciones, evitando así que posibles defectos en los requisitos provoquen errores en el desarrollo y en el producto final. Una de las mayores dificultades relacionadas con la calidad en las especificaciones de requisitos es su dependencia a las exigencias de los distintos proyectos, y a las restricciones impuestas por los distintos dominios. En esta tesis se presenta una metodología que permite incluir las restricciones impuestas mediante el procesamiento de corpus de requisitos clasificados en función de su calidad por expertos del proyecto y del dominio. El objetivo de la metodología es proporcionar métodos automáticos para la optimización de la calidad en los requisitos de ingeniería. Para ello se propone un proceso para desarrollar un clasificador que permita emular la estimación de la calidad que otorgaría el experto del dominio a un requisito, un sistema de asesoramiento automático para mejorar la calidad de requisitos defectuosos y un método para la generación automática de patrones sintáctico-semánticos, que puedan ser empleados como guía en la redacción de nuevos requisitos asegurando así una composición estructuralmente correcta. Con el fin de corroborar las propuestas de la investigación, se presentan casos de estudio mediante el tratamiento de un corpus de requisitos proporcionado por el Grupo de Trabajo de la organización INCOSE (International Council on Systems Engineering 2016) y se analizan los resultados obtenidos.Programa Oficial de Doctorado en Ciencia y Tecnología InformáticaPresidente: José Ambrosio Toval Álvarez.- Secretario: María Isabel Sánchez Segura.- Vocal: Susana Irene Díaz Rodrígue

    English phraseological verb argument contructions (VAC) in the maritime towage operations: Detection and representation of their syntactic and semantic properties.

    Get PDF
    En este artículo se investigan las construcciones fraseológicas verbales inglesas inscritas en la estructura argumentativa del verbo (VAC) usadas en las expresiones sobre las maniobras de remolque marítimo con la marca semántica [+MOVIMIENTO]. El objetivo de este estudio, basado en un corpus ad hoc especializado, es identificar las construcciones fraseológicas verbales y representar sus rasgos sintácticos y semánticos con el objetivo de sentar las bases para la elaboración de un recurso término-ontológico que pueda contribuir a la mejora de las competencias terminológicas y contextuales de los profesionales de la lengua y del ámbito marítimo. El método de indagación del corpus ha sido semasiológico y onomasiológico a través del establecimiento de unas pautas para la exploración del patrón verbo + argumento y del uso de la clase semántica de verbos push/pullde Levin (1993). El resultado es la aportación de un inventario de fraseología verbal inglesa sobre las operaciones del remolcador marítimo.This article explores the English phraseological verb constructions found within the verb argument construction (VAC) in the expressions used during the maritime towage operations which present the semantic feature [+MOVEMENT]. The purpose of this study, which is based on a specialized ad hoc corpus, is to identify the verb phraseological constructions and represent their syntactic and semantic properties. This will help to lay the foundations for the building of a term-ontological tool that may contribute to the enhancement of the terminological and contextual competences of the language professionals and of maritime language users. The corpus enquiry method has been both semasiological and onomasiological through the establishment of a step-by-step procedure for exploring the verb + argument patterns and the application of the push/pull semantic verb class by Levin (1993). The result of this study is the contribution of an inventory of English verb phraseology for the maritime towage operations.Cet article examine les constructions phraséologiques verbales anglaises inscrites dans la structure argumentative du verbe (VAC) dans les termes utilisés dans les manœuvres de remorquage maritime avec la marque sémantique [+MOUVEMENT]. L’objectif de cette étude, basée sur un corpus ad hoc spécialisé, est les identifier les constructions phraséologiques verbales et représenter leurs traits syntaxiques et sémantiques dans le but de jeter les bases de l´élaboration d´une ressource terme-ontologique pour des professionnels de la langue et le domaine maritime que contribuant à l´amélioration de ses compétences terminologique et contextuelles. La méthode d´enquête du corpus a été hebdomadaire et onomasiologique par l´établissement de lignes directrices pour l´exploration du motif verbe argument et de l´utilisation de la classe sémantique des verbes push/pull de Levin (1993). Le résultat est la fourniture d´un inventaire de phraséologie verbale en anglais sur les opérations du remorquage maritime

    Integración de minería de texto y técnicas multivariantes en el entorno digital, aplicado al análisis organizacional PESTEL

    Get PDF
    [ES]La presente tesis doctoral aborda, desde lo fundamental, el estudio y aplicabilidad del análisis estadístico de datos textuales (AEDT) a partir de la minería de datos de texto (MDT); atendiendo a las técnicas de investigación más activas a nivel mundial, así como a nuevas perspectivas en el área adelantadas en el Departamento de Estadística de la Universidad de Salamanca. Cada vez es más frecuente un notable aumento en publicaciones, a nivel mundial, que dan cabida al tratamiento de datos textuales en diferentes disciplinas. Al respecto, diversos estudios presentan a consideración de la comunidad científica, la aplicación de distintos enfoques metodológicos para la adquisición, estructuración y análisis de conocimiento a partir de información obtenida desde repositorios digitales en la web. Efectivamente, múltiples metodologías se han desarrollado entorno al AEDT. Se remontan desde las generadas por la escuela francesa, donde se postuló el análisis factorial de correspondencia (AFC) para estudiar las tesis de Chomsky sobre la lengua (Benzécri, 1964). Continuando con técnicas como las desarrolladas por la escuela anglosajona, como el análisis semántico latente (LSA) (Deerwester et al., 1990), el cual incorpora la semántica latente de los textos analizados. En la actualidad, con el incremento de aportes en relación con las técnicas en el campo del aprendizaje automático, la escuela americana ha desarrollado la técnica conocida como Asignación Latente de Dirichlet (LDA) (D. M. Blei et al., 2003). Se trata de un método de aprendizaje no supervisado utilizado para descubrir tópicos ocultos en grandes conjuntos de datos, usándose en el campo de la minería de datos textuales, análisis de sentimientos y recuperación de información. En correspondencia, la presente investigación asume como propósito fundamental el desarrollo de una estrategia metodológica basado en los métodos Biplot para dar un impulso analítico al modelo de Asignación Latente de Dirichlet, integrando la adquisición de información a partir del entorno digital Web, con aplicación al análisis organizacional PESTEL. De esta manera, nuestra investigación pretende contribuir con el desarrollo de una aplicación escrita en lenguaje R (Posit, 2023; R Development Core Team, 2000), denominada LDABiplots (Pilacuan-Bonete, Galindo-Villardón, Delgado-Álvarez, et al., 2022). Destacamos especialmente la utilización del HJ-BIPLOT, que permite generar representaciones Biplot de las matrices de probabilidad transformadas mediante el cálculo de una medida de centralidad del modelado de tópicos LDA, a partir del procesamiento de los datos no estructurados y extraídos desde la web de noticias de Google e integrando el análisis del entorno organizacional PESTEL al HJ-Biplot. Esto representa una ventaja significativa, porque se constituye en una representación conjunta de filas o sujetos objeto de estudio y columnas o variables de estudio. Por ende, proporciona una representación visual intuitiva de la estructura del modelo, permitiendo identificar patrones y tendencias ocultas y ayudando en la selección de términos o palabras, así como de documentos relevantes

    Adquisición y representación del conocimiento mediante procesamiento del lenguaje natural

    Get PDF
    [Resumen] Este trabajo introduce un marco para la recuperación de información combinando el procesamiento del lenguaje natural y conocimiento de un dominio, abordando la totalidad del proceso de creación, gestión e interrogación de una colección documental. La perspectiva empleada integra automáticamente conocimiento lingüístico en un modelo formal de representación semántica, directamente manejable por el sistema. Ello permite la construcción de algoritmos que simplifican las tareas de mantenimiento, proporcionan un acceso más flexible al usuario no especializado, y eliminan componentes subjetivas que lleven a comportamientos difícilmente predecibles. La adquisición de conocimientos lingüísticos parte de un análisis de dependencias basado en un formalismo gramatical suavemente dependiente del contexto. Conjugamos de este modo eficacia computacional y potencia expresiva. La interpretación formal de la semántica descansa en la noción de grafo conceptual, sirviendo de base para la representación de la colección y para las consultas que la interrogan. En este contexto, la propuesta resuelve la generación automática de estas representaciones a partir del conocimiento lingüístico adquirido de los textos y constituyen el punto de partida para su indexación. Luego, se utilizan operaciones sobre grafos así como el principio de proyección y generalización para calcular y ordenar las respuestas, de tal manera que se considere la imprecisión intrínseca y el carácter incompleto de la recuperación. Además, el aspecto visual de los grafos permiten la construcción de interfaces de usuario amigables, conciliando precisión e intuición en su gestión. En este punto, la propuesta también engloba un marco de pruebas formales.[Resumo] Este traballo introduce un marco para a recuperación de información combinando procesamento da linguaxe natural e o coñecemento dun dominio, abordando a totalidade do proceso de creación, xestión e interrogación dunha colección documental. A perspectiva empregada integra automáticamente coñecementos lingüísticos nun modelo formal de representación semántica, directamente manexable polo sistema. Isto permite a construción de algoritmos que simplifican as tarefas de mantemento, proporcionan un acceso máis flexible ao usuario non especializado, e eliminan compoñentes subxectivos que levan a comportamentos difícilmente predicibles. A adquisición de coñecementos lingüísticos parte duhna análise de dependencias basada nun formalismo gramatical suavemente dependente do contexto. Conxugamos deste modo eficacia computacional e potencia expresiva. A interpretación formal da semántica descansa na noción de grafo conceptual, servindo de base para a representación da colección e para as consultas que a interrogan. Neste contexto, a proposta resolve a xeración automática destas representacións a partires do coñecemento lingüístico adquirido dos textos e constitúe o punto de partida para a súa indexación. Logo, empréganse operacións sobre grafos así como o principio de proxección e xeneralización para calcular e ordenar as respostas, de tal maneira que se considere a imprecisión intrínseca e o carácter incompleto da recuperación. Ademáis, o aspecto visual dos grafos permiten a construción de interfaces de usuario amigables, conciliando precisión e intuición na súa xestión. Neste punto, a proposta tamén engloba un marco de probas formais.[Abstract] This thesis introduces a framework for information retrieval combining natural language processing and a domain knowledge, dealing with the whole process of creation, management and interrogation of a documental collection. The perspective used integrates automatically linguistic knowledge in a formal model of semantic representation directly manageable by the system. This allows the construction of algorithms that simplify maintenance tasks, provide more flexible access to non-specialist user, and eliminate subjective components that lead to hardly predictable behavior. The linguistic knowledge adquisition starts from a dependency parse based on a midly context-sensitive grammatical formalism. In this way, we combine computational efficiency and expressive power. The formal interpretation of the semantics is based on the notion of conceptual graph, providing a basis for the representation of the collection and for queries that interrogate. In this context, the proposal addresses the automatic generation of these representations from linguistic knowledge acquired from texts and constitute the starting point for indexing. Then operations on graphs are used and the principle of projection and generalization to calculate and manage replies, so that is considered the inherent inaccuracy and incompleteness of the recovery. In addition, the visual aspect of graphs allow the construction of user-friendly interfaces, balancing precision and intuition in management. At this point, the proposal also includes a framework for formal testing

    Extracción de relaciones semánticas y entidades en documentos del dominio de salud

    Get PDF
    "Los métodos de procesamiento del lenguaje natural (PLN) se utilizan cada vez más para extraer conocimientos de textos de salud no estructurados. Por ejemplo, analizar información médica, estructurarla en categorías definidas y agruparlas en bases de datos. La organización de la información médica puede ser de utilidad para análisis clínicos, para disminuir el número de errores médicos, o puede ayudar a la toma de decisiones más adecuadas en determinados casos. En esta tesis se espera extraer automáticamente una gran variedad de conocimientos de documentos de salud redactados en español. Esta investigación aborda un escenario, donde para resolver las tareas de identificación de entidades y extracción de relaciones semánticas se utiliza una metodología basada en el uso de redes neuronales recurrentes. Para evaluar la metodología se hará uso de las métricas: precisión, exhaustividad y F1"

    Mejoras en la usabilidad de la web a través de una estructura complementaria

    Get PDF
    La Web ha motivado la generación de herramientas que permiten, con distintos grados de sofisticación y precisión, manipular sus contenidos. Para ello, tratan una serie de problemas, relacionados con la naturaleza imperfecta y cambiante de todas las actividades humanas. Ésta se refleja en fenómenos como las ambigüedades, contradicciones y errores de los textos almacenados. Esta tesis presenta una propuesta para complementar la administración de contenidos en la Web y de esta manera facilitar el proceso de recuperación de información. Se presenta un prototipo, denominado Web Intelligent Handler (WIH), que implementa una serie de algoritmos básicos para manipular algunas características morfosintácticas de textos en castellano y, en base a ellas, obtener una representación resumida y alternativa de su contenido. En este contexto, se define una nueva métrica de ponderación para reflejar parte de la esencia morfosintáctica de los sintagmas. Además se define un esquema de interacción entre los módulos para regular la explotación de los textos. También se explora la capacidad de los algoritmos propuestos en el tratamiento de los textos, considerándolos como una colección de sintagmas, sujeta a factores tales como contradicciones, ambigüedades y errores. Otro aporte de esta tesis es la posibilidad de evaluar matemáticamente y de manera automática tipos de estilos de texto y perfiles de escritura. Se proponen los estilos literario, técnico y mensajes. También se proponen los perfiles documento, foro de intercambio, índice Web y texto de sitio blog. Se evalúan los tres estilos y los cuatro perfiles mencionados, los que se comportan como distintos grados de una escala de estilos y perfiles, respectivamente, cuando se los evalúa con la métrica morfosintáctica aquí definida. Adicionalmente, utilizando la misma métrica, es posible realizar una valoración aproximada y automática de la calidad de cualquier tipo de texto. Esta calificación resulta ser invariante a la cantidad de palabras, temática y perfil, pero relacionada con el estilo del escrito en cuestión.The Web motivated a set of tools for content handling with several levels of sophistication and precision. To do so, they deal with many unsolved problems in saved texts. All of them are related to the mutable and imperfect essence of human beings such as ambiguities, contradictions and misspellings. This theses presents a proposal to complement the Web content management and therefore to provide support to the information retrieval activity. A prototype named Web Intelligent Handler (WIH) is introduced to implement a set of algorithms that manage some morpho-syntactical features in Spanish texts. These features are also used to get a brief and alternate representation of its content. Within this framework, a new weighting metric is designed to reflect part of the syntagm morpho-syntactical essence. A module interaction approach is also outlined to rule the text processing output. Besides, this thesis analyzes the algorithms ability to handle texts considering them as a collection of syntagms affected by certain factors such as contradictions, ambiguities and misspellings. Perhaps, the main contribution of this thesis is the possibility to automatically mathematical evaluation of text styles and profiles. Three initial three styles are proposed here: literary, technical and message. Furthermore, the following writer profiles are proposed also: document, foro, Web-index and blog. All the three styles and four profiles were evaluated. They behave respectively as a part of a graduated scale of styles and profiles when the morpho-syntactical metric defined here is used. It is also possible to perform a kind of automatic rough text quality valuation. This is invariant to the text word quantity, topic and profile, but it is related to its style.Facultad de Informátic

    Reconocimiento de enfermedades en fichas técnicas de medicamentos y su anotación con SNOMED-CT

    Get PDF
    La interoperabilidad o habilidad para intercambiar información entre sistemas informáticos es una cuestión de gran importancia en la informática médica. La interoperabilidad influye directamente en la calidad de los sistemas médicos existentes en la práctica clínica, ya que permite que la información se trate de manera eficiente y consistente. Para la comunicación entre sistemas informáticos heterogéneos se necesitan terminologías o diccionarios que representen e identifiquen conceptos médicos de forma única, sin importar el idioma o la forma lingüística en la que aparezcan. Estas terminologías permiten a los sistemas informáticos tener la misma visión del mundo y que la información intercambiada sea entendible. Actualmente, los esfuerzos para la adopción de estas terminologías en la práctica clínica recaen en los profesionales del dominio médico. Los profesionales son los encargados de reconocer conceptos médicos manualmente en documentos del área de la medicina y anotarlos con el código del concepto asociado en la terminología. No existe ningún método automático que permita el reconocimiento de conceptos de un determinado dominio, como por ejemplo las enfermedades, y que posteriormente encuentre el concepto asociado dentro de una terminología con un grado de precisión suficientemente elevado para que pueda ser adoptado en la práctica clínica. En esta tesis de máster se propone un nuevo método para el reconocimiento de enfermedades en fichas técnicas de medicamentos y su posterior mapeo con la terminología médica SNOMED-CT en español. El método utiliza dos nuevas técnicas propuestas en la tesis para cada fase. La nueva técnica para el reconocimiento de enfermedades propuesta está basada en reglas y en diccionarios especializados en medicina. La nueva técnica de mapeo está basada en la generación de las posibles combinaciones lingüísticas en las que puede aparecer la enfermedad para realizar comparaciones exactas de palabras, utilizando las funciones sintácticas de las palabras como guía. El método propuesto se centra en la identificación de enfermedades dentro de la sección de indicaciones terapéuticas de las fichas técnicas de medicamentos
    corecore