9,089 research outputs found

    Inducción de medidas de similitud utilizadas en tareas de procesamiento de lenguaje natural, mediante regresión simbólica

    Get PDF
    El procesamiento de lenguaje natural es un conjunto de tareas capaces de procesar el lenguaje oral y escrito mediante técnicas y métodos computacionales que permitan la manipulación de lenguajes naturales. Algunas de las tareas creadas para el procesamiento de lenguaje natural son: Recuperación de información, Detección de plagio, Desambiguación del sentido de las palabras, Generación automática de resúmenes, Detección de nombres de medicamentos confusos, Detección de palabras clave, Clasificación de tópicos, Clasificación de documentos, entre otras. A pesar de que el objetivo de las tareas del procesamiento de lenguaje natural es especifico para cada una de ellas, estas tareas comparten algunas características en común. Las características que comparten la mayoría de las tareas de procesamiento de lenguaje natural son: 1) Precisan una forma de representación de la información, 2) Requieren una función de similitud, 3) Necesitan un paradigma de evaluación. Estos tres elementos son de gran importancia al momento de desarrollar una aplicación de procesamiento de lenguaje natural, pero el elemento que más impacto tienen en su desarrollo es la función de similitud que se utiliza. Existe una gran cantidad de funciones de similitud que pueden ser aplicadas al procesamiento de lenguaje natural, y aunque estas funciones han demostrado generar buenos resultados, aún no existe una “mejor” función de similitud que genere resultados competitivos para todas las tareas de procesamiento de lenguaje. Existen investigaciones que tratan de resolver el problema de la “mejor” función de similitud, pero centrándose en generar una función de similitud especifica a cada aplicación de procesamiento de lenguaje natural. Una de las maneras de crear funciones de similitud especificas es a través de la inducción de los valores generados por funciones de similitud conocidas. A este proceso se le conoce como inducción de funciones de similitud. Existen diversos métodos de inducción, entre ellos análisis de regresión (técnica estadística), algoritmos genéticos, redes neuronales, regresión simbólica (técnicas computacionales), entre otras. Es esta tesis se propuso la aplicación de un método de inducción de funciones de similitud a través de regresión simbólica. El método propuesto genera funciones de similitud a través de la combinación inducida de valores de similitud generados por funciones conocidas. El método propuesto fue probado en dos tareas del procesamiento de lenguaje natural: detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras. Los resultados del método propuesto aplicado a ambas tareas del procesamiento de lenguaje natural mencionadas generan buenas funciones de similitud, y los resultados al 7 evaluar las tareas con sus respectivos paradigmas de evaluación, muestran resultados superiores a otros métodos del estado del arte de dichas tareas. Los resultados finales de la evaluación de las tareas de procesamiento de lenguaje natural utilizando la función de similitud inducida por el método propuesto general resultados superiores a otros trabajos, por lo cual se comprueba la eficacia del método propuesto. El método propuesto está diseñado de tal forma que puede ser utilizado por diversas tareas del procesamiento de lenguaje natural, siempre y cuando estas cumplan con los tres componentes antes mencionados (una forma de representación de la información, función de similitud y paradigma de evaluación). En esta tesis se demuestra la aplicación del método a la detección de nombres de medicamentos confusos y desambiguación del sentido de las palabras, y se deja abierta la futura aplicación del método a otras tareas del procesamiento de lenguaje natural

    Técnicas básicas en el tratamiento informático de la lengua

    Get PDF
    Los procesadores lingüísticos son parte necesaria en la mayoría de los sistemas que incluyen alguna forma de tratamiento de la lengua. El autor describe los procesos iniciales que se desarrollan en el tratamiento de textos: nivel superficial, morfológico y presintáctico. Son los pasos previos a la interpretación semántica limitados al ámbito del tratamiento de textos escritos

    Desambiguación Verbal Automática: un estudio sobre el rendimiento de la información semántica argumental

    Get PDF
    Una de las tareas fundamentales para la resolución de la ambigüedad en el ámbito del Procesamiento del Lenguaje Natural es la Desambiguación Semántica Automática; especialmente la tarea específica de Desambiguación Verbal Automática (DVA). En la presente investigación se lleva a cabo una tarea experimental con la finalidad de comprobar la viabilidad de una aproximación a la DVA basada en la información semántica de los argumentos verbales. Los buenos resultados obtenidos indicarían la necesidad de tener en cuenta este tipo de información en futuras propuestas de DVA

    Una revisión de la literatura sobre población de ontologías

    Get PDF
    The main goal of ontologies in computing is related to the definition of a common vocabulary for describing basic concepts and relationships on a specific domain. Main components of ontologies are classes—concepts—, instances, properties, relations, and axioms, among others elements. The ontology population process is intended to receive an ontology as input in order to extract and relate the instances of each ontology class from heterogenous information sources. In this paper we perform a systematic state-of-the-art review about ontology population. We select papers from specialized databases and we create a research question for driving paper search. The results of our review points out ontology population as an interesting topic for researchers. Even though we have several techniques for driving the process, fully automated tools are still missing and we also miss high levels of precision and recall.El principal objetivo de las ontologías en computación es la definición de un vocabulario común para describir conceptos básicos y sus relaciones en un dominio específico. Los principales componentes de las ontologías son clases (conceptos), instancias, propiedades, relaciones y axiomas, entre otros elementos. El proceso de población de ontologías se refiere a la recepción de una ontología como entrada, para luego extraer y relacionar las instancias a cada clase de la ontología desde fuentes de información heterogéneas. En este artículo se realiza una revisión sistemática de literatura sobre la población de ontologías. Se seleccionan artículos de bases de datos especializadas y se crea una pregunta de investigación que permita dirigir la búsqueda de los artículos. Los resultados de la revisión apuntan a que la población de ontologías es un tema de interés para los investigadores. A pesar de que existen muchas técnicas para realizar el proceso, hace falta crear herramientas automáticas y con altos niveles de precision y recall

    Verb Sense Disambiguation: a study about the performance of argumental semantic information

    Get PDF
    Una de las tareas fundamentales para la resolución de la ambigüedad en el ámbito del Procesamiento del Lenguaje Natural es la Desambiguación Semántica Automática; especialmente la tarea específica de Desambiguación Verbal Automática (DVA). En la presente investigación se lleva a cabo una tarea experimental con la finalidad de comprobar la viabilidad de una aproximación a la DVA basada en la información semántica de los argumentos verbales. Los buenos resultados obtenidos indicarían la necesidad de tener en cuenta este tipo de información en futuras propuestas de DVA.One of the key tasks for resolving the ambiguity in the field of Natural Language Processing is Word Sense Disambiguation; especially the specific task of Verb Sense Disambiguation (VSD). In the present study an experimental task is performed in order to test the feasibility of an approach to VSD based on semantic information about verbal arguments. The good results obtained indicate the need to take into account this information in future proposals for VSD.Esta investigación se ha llevado a cabo gracias al proyecto ReTeLe (TIN 2015-68955-REDT)

    Estado del arte para la elaboración de pruebas utilizando el procesamiento de lenguaje natural en el área de física y matemática

    Get PDF
    El presente estado del arte analiza la investigación actual sobre el uso del procesamiento natural de lenguaje (por sus siglas NLP en inglés) en la creación de pruebas en materias a nivel universitario de física y matemáticas. Los resultados muestran que los investigadores están conscientes de la necesidad de automatizar la creación de pruebas en los sistemas de aprendizaje electrónico y ven el aprendizaje automático como una solución prometedora. Los hallazgos de este análisis del estado del arte brindan información sobre la investigación en el campo de la generación de pruebas en física y matemáticas. Estos descubrimientos complementan la información actual y sirven como base para investigaciones y progreso en el campo de la evaluación educativa.These state-of-the-art reviews current research on the use of natural language processing (by its acronym NLP in English) in the creation of tests in college-level subjects of physics and mathematics. The results show that researchers are aware of the need to automate test creation in e-learning systems and see machine learning as a promising solution. The findings of this state-of-the-art analysis provide insights into research in the field of evidence generation in physics and mathematics. These findings complement current information and serve as the basis for research and progress in the field of educational assessment

    Servicio web de identificación y clasificación de entidades nombradas

    Get PDF
    La finalidad de este proyecto es construir un Servicio Web donde tres recursos analicen un texto y se obtenga como salida el mismo texto anotado según tipos (personas, localizaciones u organizaciones). Para llevar a cabo este trabajo se marcaron ciertos objetivos necesarios. A nivel de conocimientos, estudiar y analizar diferentes herramientas para la identificación y clasificación de EN, así como los técnicas y sistemas de extracción. Conocer también cómo funcionan estos sistemas por dentro, de qué manera identifica y clasifican las entidades y los etiquetados que manejan para analizar sus salidas con el fin de diseñar un mapping común. A nivel técnico, los objetivos marcados estaban en seleccionar un lenguaje de programación estructurado que facilitara la tarea de acoplar los tres recursos y un entorno de desarrollo de aplicaciones que soportara este lenguaje. Finalmente Java fue el lenguaje seleccionado y Eclipse el entorno de desarrollo. Eclipse facilita la tarea a la hora comunicarse con otros servicios y sistemas como, Tomcat y Axis seleccionados como servidor y motor de Servicios Web y así poder ofrecer un sistema de EEN en forma de servicio.Ingeniería Técnica en Informática de Gestió

    Reconocimiento de enfermedades en fichas técnicas de medicamentos y su anotación con SNOMED-CT

    Get PDF
    La interoperabilidad o habilidad para intercambiar información entre sistemas informáticos es una cuestión de gran importancia en la informática médica. La interoperabilidad influye directamente en la calidad de los sistemas médicos existentes en la práctica clínica, ya que permite que la información se trate de manera eficiente y consistente. Para la comunicación entre sistemas informáticos heterogéneos se necesitan terminologías o diccionarios que representen e identifiquen conceptos médicos de forma única, sin importar el idioma o la forma lingüística en la que aparezcan. Estas terminologías permiten a los sistemas informáticos tener la misma visión del mundo y que la información intercambiada sea entendible. Actualmente, los esfuerzos para la adopción de estas terminologías en la práctica clínica recaen en los profesionales del dominio médico. Los profesionales son los encargados de reconocer conceptos médicos manualmente en documentos del área de la medicina y anotarlos con el código del concepto asociado en la terminología. No existe ningún método automático que permita el reconocimiento de conceptos de un determinado dominio, como por ejemplo las enfermedades, y que posteriormente encuentre el concepto asociado dentro de una terminología con un grado de precisión suficientemente elevado para que pueda ser adoptado en la práctica clínica. En esta tesis de máster se propone un nuevo método para el reconocimiento de enfermedades en fichas técnicas de medicamentos y su posterior mapeo con la terminología médica SNOMED-CT en español. El método utiliza dos nuevas técnicas propuestas en la tesis para cada fase. La nueva técnica para el reconocimiento de enfermedades propuesta está basada en reglas y en diccionarios especializados en medicina. La nueva técnica de mapeo está basada en la generación de las posibles combinaciones lingüísticas en las que puede aparecer la enfermedad para realizar comparaciones exactas de palabras, utilizando las funciones sintácticas de las palabras como guía. El método propuesto se centra en la identificación de enfermedades dentro de la sección de indicaciones terapéuticas de las fichas técnicas de medicamentos

    Ecosistema Big Data en un clúster de Raspberry Pi

    Get PDF
    Esta investigación mostrara un paso a paso de como instalar y configurar Hadoop en un clúster de raspberrys pi, describiendo y explicando desde los fundamentos de Big Data hasta todo el ecosistema de Apache y para que funciona cada tecnología. Además de recopilar información de algunas de las publicaciones mas relevantes relacionadas con Big Data

    Revisión sistemática para las técnicas de minería Web de contenido

    Get PDF
    Trabajo de InvestigaciónDeterminar las principales técnicas empleadas de minería web que permiten realizar minería de contenido, con el fin de facilitar la búsqueda de información en bases documentales. Para ello se llevó a cabo una revisión sistemática de la información documentada en medios arbitrados en el período 2014 – 2018, empleando las bases documentales Redalyc, Scielo, Scopus, IEEEXplore, Google Scholar y Web of ScienceINTRODUCCIÓN 1. GENERALIDADES 2. DEFINICIÓN DE LOS CRITERIOS DE BÚSQUEDA DE ARTÍCULOS SOBRE MINERÍA DE CONTENIDO EN LA WEB 3. IDENTIFICACIÓN DE LAS TÉCNICAS QUE HAN SIDO EMPLEADAS PARA REALIZAR MINERÍA DE CONTENIDO EN LA WEB 4. CARACTERIZACIÓN DE LAS PRINCIPALES TÉCNICAS QUE HAN SIDO EMPLEADAS PARA REALIZAR MINERÍA DE CONTENIDO EN LA WEB 5. CONCLUSIONES 6. RECOMENDACIONES BIBLIOGRAFÍA ANEXOSPregradoIngeniero de Sistema
    corecore