25 research outputs found

    Induction trees for automatic word classification

    Get PDF
    This work studies induction tree application for certain word category detection by simple morpho-syntactical descriptors that are proposed here. The classification power for these new descriptors with and without stemming is also studied. Finally, results show that classification prediction power is good when stem is coordinated with a short list of descriptors.En este trabajo estudia el uso de árboles de inducción para la detección de ciertos tipos de palabras usando algunos descriptores morfosintáctico propuestos. También se estudia el poder de clasificación de estos nuevos descriptores con y sin extracción de raíces de palabras (stemming). Finalmente, se muestra en los resultados que el poder de predicción de la clasificación es bueno cuando se combinan stemming con algunos de los descriptores presentados.Red de Universidades con Carreras en Informática (RedUNCI

    Elaboración de un modelo de argumentación automática basado en relaciones lingüísticas imprecisas. Una contribución a la CWW

    Get PDF
    El principal objetivo de esta memoria es establecer un análisis crítico de las aproximaciones y herramientas desarrolladas hasta el momento en el tratamiento automaizado de la vaguedad con el fin de diseñar una alternativa no precisificada basada en los conceptos propios de la computación con palabras y la aproximación semántica de grados, utilizando para ello las relaciones semánticas como principal herramienta en la unificación entre términos. A su vez, el algoritmo resultante se implementará en la creación de un asistente-evaluador automático que servirá como ejemplo práctico de los pasos requeridos para el análisis de razonamientos aproximados en lenguaje natural

    Induction trees for automatic word classification

    Get PDF
    This work studies induction tree application for certain word category detection by simple morpho-syntactical descriptors that are proposed here. The classification power for these new descriptors with and without stemming is also studied. Finally, results show that classification prediction power is good when stem is coordinated with a short list of descriptors.En este trabajo estudia el uso de árboles de inducción para la detección de ciertos tipos de palabras usando algunos descriptores morfosintáctico propuestos. También se estudia el poder de clasificación de estos nuevos descriptores con y sin extracción de raíces de palabras (stemming). Finalmente, se muestra en los resultados que el poder de predicción de la clasificación es bueno cuando se combinan stemming con algunos de los descriptores presentados.Red de Universidades con Carreras en Informática (RedUNCI

    Text Mining and Medicine: An approach to early detection of diseases

    Get PDF
    El futuro próximo de los servicios sanitarios vendrá marcado por el envejecimiento de la población y la cronicidad de las enfermedades. Junto a los cambios demográficos y sociales, se está produciendo un claro aumento de la frecuentación en los distintos servicios de atención primaria y especializada y, por supuesto, todo esto se traduce en un fuerte incremento del gasto sanitario. Todo este problemático contexto hace que las instituciones sanitarias se marquen como principales objetivos la priorización de la prevención, el control de los factores de riesgo y la detección precoz de enfermedades. Para apoyar la prevención primaria es muy importante que el profesional sanitario tenga todos los medios disponibles a su alcance para extraer conocimiento de su principal fuente de información que es la historia clínica informatizada del paciente. Así, el profesional sanitario debería disponer de herramientas que permitan conocer e interrelacionar eventos clínicos de interés, alertar sobre la aparición de futuros riesgos para la salud o pronosticar el posible desarrollo de una enfermedad. Sin embargo, el esfuerzo, tiempo y coste que supondría extraer este conocimiento de la simple lectura de los múltiples informes clínicos contenidos en la historia de un paciente (escritos en su mayoría en lenguaje natural), sería incalculable e imposible de asumir por la mayoría de los profesionales sanitarios en la clínica diaria. Hasta el momento, los sistemas de información existentes en la mayoría de instituciones sanitarias sólo han sido utilizados como sistemas de almacenaje de información, es decir sistemas que recopilan y almacenan toda la información asistencial generada en la interacción médico-paciente, pero todavía no se ha dado el paso de convertir estos grandes “almacenes de información” en “fuentes de conocimiento” que aporten valor para facilitar y apoyar la toma de decisiones clínicas. Sin embargo, el reto de automatizar este proceso, transformar almacenes de información en fuentes de conocimiento, no es una tarea trivial. Se estima que en un complejo hospitalario regional se pueden generar al año más de 3 millones de documentos clínicos, el 80% de esta documentación clínica contiene información no estructurada, una de la más destacable es la información textual. Hasta ahora la información clínica textual ha sido prácticamente ignorada por la mayoría de las instituciones sanitarias debido a la gran complejidad en su explotación para generar valor de su contenido. La principal fuente de conocimiento contenida en la historia clínica electrónica, que es la narrativa clínica textual, es en la práctica altamente desaprovechada. A la dificultad de las organizaciones sanitarias para obtener valor del texto, con las herramientas de análisis hasta ahora utilizadas, se suman las peculiares características que posee la terminología clínica donde prima: una alta ambigüedad y complejidad del vocabulario, la narrativa textual libre, una escasa normalización terminológica y un uso excesivo de acrónimos y negaciones. En este complejo marco y ante la creciente necesidad de adquirir conocimiento para apoyar el proceso de prevención y toma de decisiones clínicas, se hace imprescindible el uso de Sistemas Inteligentes que ayuden a extraer el valor encerrado en el contenido textual de los múltiples documentos que integran la historia clínica electrónica. Pero a pesar de esta acuciante necesidad, actualmente existen muy pocos sistemas reales que extraigan conocimiento del texto clínico para facilitar el trabajo diario al profesional sanitario en tareas arduas y complejas como la detección de factores de riesgo o la predicción diagnóstica. En la actualidad, para abordar la problemática de extraer valor del texto clínico, en el entorno de la medicina computacional, disponemos de las técnicas avanzadas que nos proporciona la disciplina de la Minería de Textos (MT). Esta disciplina puede definirse como un área orientada a la identificación y extracción de nuevo conocimiento adquirido a partir de información textual, es un campo multidisciplinar que puede integrar técnicas de otras disciplinas como el Procesamiento del Lenguaje Natural (PLN) o Aprendizaje Automático (AA). En este sentido, abordamos esta tesis doctoral con un análisis exhaustivo y pormenorizado del estado del arte sobre la disciplina de la MT en el ámbito de la Medicina, recogiendo los métodos, técnicas, tareas, recursos y tendencias más destacadas en la literatura. De esta amplia revisión se detecta que en la práctica los sistemas existentes para apoyar el proceso de toma de decisiones clínicas basados en información clínica textual son escasos y generalmente resuelven una única tarea principal centrándose en un área específica de conocimiento y siendo desarrollados para dominios muy específicos difícilmente reproducibles en otros entornos. Ante las problemáticas observadas en los sistemas de MT existentes y las necesidades de las instituciones sanitarias, se propone la creación de un novedoso sistema, denominado MiNerDoc, que permita apoyar la toma de decisiones clínicas en base a una combinación de técnicas de la disciplina de la MT, junto con el enriquecimiento terminológico y semántico proporcionado por la herramienta MetaMap y el metathesaurus UMLS, recursos que aportan características esenciales en el dominio médico. MiNerDoc permite, entre otras funcionalidades, detectar factores de riesgo o eventos clínicos de interés e inferir automáticamente códigos normalizados de diagnósticos tomando como fuente exclusiva la información textual contenida en informes clínicos, en definitiva, permite llevar a cabo tareas complejas que facilitan y apoyan la labor del profesional sanitario en la prevención primaria y la toma de decisiones clínicas. El sistema de MT propuesto ha sido evaluado en base a un amplio análisis experimental, los resultados demostraron la efectividad y viabilidad del sistema propuesto y verificaron el prometedor rendimiento de MiNerDoc en las dos tareas evaluadas, reconocimiento de entidades médicas y clasificación diagnóstica multietiqueta.The near future of health services will be marked by the ageing of the population and the chronicity of diseases. Together with the demographic and social changes, there is a clear increase in the number of people attending both primary and specialized care services, and, of course, all this produces a sharp increase in healthcare expenditure. All this context makes health institutions to set a series of main objectives: prioritization of prevention, control of risk factors and early detection of diseases. To support primary prevention, it is important that health professionals have all the available means at their disposal to extract knowledge from main sources of information, that is, the patient’s electronic health records. Thus, health professionals should have tools that allow them to know and interrelate clinical events of interest, receive alerts about upcoming health risks or predict the development of a disease. However, the effort, time and cost required to extract this knowledge by just reading of the multiple clinical reports belonging to a patient's history (mostly written in natural language), are incalculable and hardly affordable for most health professionals in the daily clinic practice. Until now, the existing information systems in most health institutions have only been used as information storage systems, that is, systems that collect and store any healthcare information generated in the practitioner-patient interaction. By now, the step of transforming such raw data into useful "knowledge" that eases and supports the final clinical decision-making process has not been applied yet. Nevertheless, such challenge of transforming raw data into knowledge is not trivial. It is estimated that in a regional hospital more than 3 million clinical documents can be generated per year, 80% of them contain unstructured or textual information. Up to now, textual clinical information has been practically ignored by most health institutions mainly due to the arduous process required to take advantage of the content of such vast amount of data. Thus, the main source of knowledge contained in the electronic medical records, which is in textual clinical narrative, is practically untapped. Additionally to the difficulty of the health organizations to obtain value from the text by using traditional tools, the peculiar characteristics of the clinical terminology is an added problem: high ambiguity and complexity of the vocabulary, free textual narrative, a poor terminological standardization and an overuse of acronyms and negations. In this complex framework and in view of the growing need to acquire knowledge to support the decision-making process, it is essential to use Intelligent Systems that help to extract the value from textual documents. Currently, there are very few real systems able to extract knowledge from clinical texts and to really ease the daily work of healthcare professionals in complex tasks such as risk factor detection or diagnostic prediction. In recent years, to face these problems up, there are a number of advanced techniques provided by the Text Mining (TM) discipline. TM might be defined as an area focused on the identification and extraction of new knowledge from textual information, and it is seen as a multidisciplinary field gathering techniques from other disciplines such as Natural Language Processing (NLP) and Machine Learning (ML). In this sense, this doctoral Thesis first provides an exhaustive and detailed analysis of the state-of-the-art on the TM discipline in Medicine. This analysis includes the most outstanding methods, techniques, tasks, resources and trends in the field. As a result, this review revealed that the existing systems to support the clinical decision-making process by applying a textual clinical information are scarce, and they generally perform a single task on a specific area of knowledge and for very specific domains hardly applied to problems on different environments. In this regard, this Thesis proposes the development of a new system, called MiNerDoc, to support clinical decision-making by applying a combination of techniques from the TM discipline, along with the terminological and semantic enrichment provided by the MetaMap tool and the UMLS metathesaurus. MiNerDoc allows, among other functionalities, the detection of risk factors or clinical events of interest and automatic inference of standardized diagnostic codes based on the textual information included in clinical reports. The proposed TM system has been evaluated based on an extensive experimental study and the results have demonstrated the effectiveness and viability of such system in two tasks, recognition of medical entities and multi-label diagnostic classification

    Aproximación a la lingüística computacional

    Get PDF
    520 p.Esta tesis surge con el objetivo de intentar dar respuesta, desde la perspectiva de la Lingüística, a una serie de preguntas básicas planteadas a raíz de una primera toma de contacto con el campo de la Lingüística Computacional. En primer lugar, buscando delimitar el objeto, finalidad, líneas de investigación e historia de la disciplina. En segundo lugar, analizando las implicaciones del tratamiento computacional del lenguaje a través de sus principales áreas de trabajo, así como algunas de las aplicaciones de la LC. Por último, incidiendo en uno de los aspectos que más interés han suscitado, el de la recopilación de grandes muestras textuales de uso de la lengua, o corpus. Todos estos puntos se han articulado en sendos materiales en línea que sirven desde hace algunos años como apoyo de la docencia de las asignaturas correspondientes de la licenciatura en Lingüística y que son de consulta libre para todos aquellos que quieran utilizarlo

    Aprendizaje del léxico español mediante la cognicidad y el acceso sinonímico: propuesta de diccionario de cognados sinonímicos interlingüísticos español-portugués brasileño (DICOGSINTER)

    Get PDF
    La presenta investigación se enmarca en los estudios de integración de varias líneas de investigación en el ámbito de la Lingüística Aplicada a la Enseñanza de Español (ELE)y de lenguas extranjeras (LE): Lexicología y Semántica, Lexicografía y Lingüística de Corpus y Didáctica de ELE se combinan en un todo integrador de reflexión teórica y dimensión práctica, lo que constituyen uno de los valores sustanciales del producto final,y el diccionario de cognados de la investigación. El objetivo principal de dicha investigación es mostrar la importancia de enseñar de manera explícita y consciente los cognados sinonímicos interlingüísticos español-portugués como componente facilitador de acceso léxico a partir de la cognicidad entre lenguas afines que permitan percibir de modo concreto la semejanza de contenidos semánticos y formales y superar, así una visión contrastiva general que solo pone el foco en lo diferente, lo contradictorio o lo erróneo. A través de un diccionario semasiológico de aprendizaje de cognados sinonímicos interlingüísticos español-portugués brasileño (DICOGSINTER), elaborado a partir de los inventarios del currículo del Plan Curricular del Instituto Cervantes (PCIC),del análisis de corpora lexicográficos y del uso de herramientas informáticas de lexicografía como el programa Sketch Engine y QuarkXPress education; facilitaría sensiblemente el aprendizaje del léxico a alumnos luso-hablantes. Merece destacarse el carácter pionero de DICOGSINTER, puesto que todavía no existe, en la historia de la lexicografía monolingüe o bilingüe, tal diccionario

    El Espacio de Coordinación de Centro (ECC) del Campus Virtual (CV) como plataforma para la orientación, el asesoramiento y la tutorización de estudiantes

    Get PDF
    Daremos cuenta de lo planificado en el Proyecto de Innovación y Mejora de la Calidad Docente: “Tutorías, asesoramiento y orientación de los estudiantes mediante el Espacio de Coordinación de Centro (ECC) del Campus Virtual (CV) de la Universidad Complutense de Madrid (UCM)” y desarrollaremos brevemente lo realizado en tal ámbito con los 54 estudiantes matriculados, en el curso académico 2005-06, en la segunda especialidad en “Orientación y consejería al niño, adolescente y psicoterapia familiar” desarrollado en la Facultad de Psicología, Relaciones Industriales y Ciencias de la Comunicación de la Universidad Nacional de San Agustín de Arequipa en el Perú

    Descripción de nuevos códigos de comunicación virtual

    Get PDF
    La globalización trajo consigo un conjunto de cambios, dentro de ellos, la aparición de nuevas formas de comunicación virtual que hoy necesitan ser estudiadas debido a las implicancias que están generando en la sociedad. El siguiente trabajo monográfico titulado “DESCRIPCIÓN DE NUEVOS CÓDIGOS DE COMUNICACIÓN VIRTUAL”, pretende clasificar y describir ese conjunto de códigos de comunicación que han aparecido recientemente en diferentes espacios virtuales como consecuencia del adelanto vertiginoso de la tecnología y sus redes sociales. Para el mencionado estudio se ha considerado tres capítulos. En el primer capítulo se expone la definición de cibercultura y ciberespacio, términos que se han popularizado desde la aparición del internet y sus diferentes espacios virtuales. En el segundo capítulo se describe y se tipifica los nuevos códigos de comunicación virtual que han aparecido recientemente. Y en el último capítulo de estudio se presenta un debate sobre las consecuencias positivas y negativas que estos nuevos códigos de comunicación han generado en la sociedad y en sus individuos.Trabado de investigacio

    Inteligencia Artificial y Derecho: algunos enfoques epistemológicos sobre la deducción normativa y el razonamiento basado en casos

    Get PDF
    Principalmente nos interesa mostrar cómo debe encararse la tarea de dar definiciones válidas cuando éstas involucran dos terrenos del conocimiento originariamente disímiles. Algunos observadores podrán presentir la re-creación de determinadas nociones jurídicas en el área computacional, y la aplicación de criterios de homologación. Nuestra propuesta analiza con la mayor claridad formal posible, aspectos del Derecho en su acoplamiento abstracto con técnicas de representación de conocimiento y mecanismos de razonamiento, los dos tópicos en los que tradicionalmente se divide el estudio de sistemas basados en conocimiento. El presente no es un trabajo de modelización. Ni creamos conceptos de Derecho ni de Inteligencia Artificial en esta tesis. Tampoco adaptamos teorías jurídicas para incrementar las facilidades de un sistema experto legal. La perspectiva tomada es filosófica o epistemológica. La visión kelseniana del orden jurídico es universalmente reconocida ya en la ciencia del Derecho misma, con lo que la tomamos naturalmente como pilar conceptual. No nos detenemos en discusiones sobre las virtudes y defectos de la consideración de distintas clasificaciones de normas jurídicas, sólo capturamos algunas de sus múltiples definiciones. El concepto de norma, central en la teoría jurídica, es estimado aquí como una prescripción, al margen de permitir, prohibir, obligar, u ordenar una determinada conducta. Para aclarar conceptos jurídicos cuya recepción en el área de IA y Derecho pueda resultar conflictiva, recurrimos a posturas filosóficas destacadas, en pos de un equilibrio conceptual que nos lleve a distinguir posiciones respecto del concepto. Como en cualquier rama del saber, elevar el nivel de las ideas a un plano integral resulta provechoso para luego poder comparar y analizar virtudes y limitaciones de las nociones propuestas.Tesis digitalizada en SEDICI gracias a la colaboración de la Biblioteca de la Facultad de Informática.Facultad de Ciencias Exacta

    Aproximación al Diseño y Elaboración de un Diccionario Sanitario Trilingüe en Línea (Español-Rumano-Inglés)

    Get PDF
    Esta Tesis Doctoral presenta un estudio sobre los recursos terminológicos especializados del ámbito de la salud en la combinación de lenguas español-rumano-inglés y tiene como principal objetivo ofrecer una aproximación a un modelo de diseño y elaboración de un diccionario de términos sanitarios trilingüe en línea aplicando herramientas de diferentes tipos tanto para su diseño y elaboración como para su incorporación a una página web. Para conseguir los objetivos marcados, en primer lugar se lleva a cabo una introducción del tema presentando el estado de la cuestión sobre los recursos terminológicos del ámbito sanitario en general y de la atención primaria en particular en la combinación de lenguas indicada. En segundo lugar, se investiga sobre las disciplinas tan imprescindibles en la construcción de un diccionario, como la lexicología y la terminología con sus respectivas rama aplicadas y se presenta la utilidad de diferentes tipos de herramientas disponibles para la elaboración de un glosario especializado que se pueda convertir en un diccionario especializado: bases de datos de uso general y de enfoque lingüístico, herramientas de gestión terminológica, de etiquetado y extracción de terminología, de creación de ontologías. Finalmente, se presenta una propuesta metodológica de bajo coste para la creación de un modelo de diccionario sanitario trilingüe en línea. En cuanto a su estructura, la Tesis Doctoral tiene dos partes: una teórica y otra práctica, desarrolladas a lo largo de seis capítulos: los tres primeros capítulos están dedicados a la teoría y los dos siguientes (capítulos cuatro y cinco) a la aplicación práctica. En la parte teórica, por un lado, se lleva a cabo un estudio más detallado sobre lexicología, terminología, lexicografía y terminografía, presentando, de forma paralela, las relaciones entre estas disciplinas y el multilingüismo y la traducción. Por otro lado, se analizan los conceptos relacionados con bases de datos, herramientas y programas informáticos al servicio de la terminología y terminografía para cumplir con los objetivos propuestos en este trabajo. Ya en la parte práctica, se dedica una primera fase a la creación de un modelo de corpus real y se investiga sobre los sistemas sanitarios de España, Rumanía y el Reino Unido, especialmente el área de atención primaria y de la historia clínica digital. En la segunda fase, se diseña un modelo de base de datos utilizando MySql y una página web. Finalmente, el capítulo seis ofrece una visión de conjunto del trabajo realizado. La principal conclusión derivada del mismo indica la escasez de materiales de este tipo y la necesidad de desarrollar programas que faciliten la comunicación especializada dentro del ámbito sanitario a nivel europeo
    corecore