22 research outputs found

    A comparison of approaches to semi-supervised multiclass SVM for Web page classification

    Get PDF
    En este artículo se realiza un estudio de diferentes aproximaciones a la clasificación semisupervisada multiclase de páginas web mediante SVM. Ante la naturaleza binaria y supervisada de los algoritmos SVM clásicos, y tratando de evitar problemas de optimización complejos, se propone un enfoque basado en la combinación de clasificadores, tanto binarios semisupervisados como clasificadores multiclase supervisados. Los resultados de los experimentos realizados sobre tres colecciones de referencia muestran un rendimiento notablemente superior para la combinación de clasificadores multiclase supervisados. Por otro lado, en este trabajo también se realiza un estudio sobre la aportación de los documentos no etiquetados en la fase de aprendizaje para este tipo de entornos. En nuestro caso, y a diferencia de los problemas binarios, se obtiene una mayor efectividad cuando se ignora este tipo de datos para problemas multiclase.In this paper we present a study on semi-supervised multiclass web page classification using SVM. Due to the binary and supervised nature of the classical SVM algorithms, and trying to avoid complex optimization problems, we propose an approach based on the combination of classifiers, not only binary semi-supervised classifiers but also multiclass supervised ones. The results of our experiments over three benchmark datasets show noticeably higher performance for the combination of multiclass supervised classifiers. On the other hand, we analyze the contribution of unlabeled documents during the learning process for these environments. In our case, and unlike for binary tasks, we get higher effectiveness for multiclass tasks when no unlabeled documents are taken into account

    Uso de Información de Geolocalización, Usuario y Temporal para la Monitorización de Desastres Naturales en Twitter

    Get PDF
    During emergency situation events it is important to acquire as much information about the event as possible, and social media sites like Twitter offer important real-time user contributed data. Typical Information Filtering techniques are keyword-based approaches or focused on co-occurrence with keywords. However, these approaches can miss relevant local information if messages do not contain an initially considered event-related keyword. Considering geolocation, user and temporal information within a pseudo-relevance feedback approach we can find event-related terminology but not co-occurring with initially considered keywords. Thus, taking into account the temporal aspect we can modify a query expansion function like Kullback-Leibler divergence in order to improve the Information Filtering process. Our proposed approaches have been evaluated in two Twitter datasets associated with real-world events, obtaining encouraging results.Cuando se producen eventos relacionados con situaciones de emergencia, es importante acceder a tanta información como sea posible relacionada con dicho evento. En este contexto algunas redes sociales como Twitter suponen un importante recurso de información en tiempo real. La técnicas clásicas de filtrado de información suelen centrarse en el análisis de coocurrencia de términos con el conjunto de palabras clave inicialmente consideradas. Sin embargo, estas aproximaciones pueden perder información, ya que no son capaces de recuperar información relevante que venga expresada con palabras que no coocurran con las palabras clave inicialmente usadas, y que expresan nuestra necesidad de información. Considerar información de geolocalización, usuario o temporal dentro de un enfoque de pseudo-relevance feedback, nos permite encontrar terminología relacionada con el evento, pero no coocurrente con las palabras clave inicialmente consideradas. Por otro lado, considerando el aspecto temporal se puede modificar una función de expansión de consultas como la divergencia de Kullback-Leibler con el fin de mejorar el filtrado de información en estas situaciones de emergencia. Nuestras propuestas se han evaluado en dos colecciones de eventos del mundo real obteniéndose resultados alentadores.This work has been part-funded by the Spanish Ministry of Science and Innovation (MED-RECORD Project, TIN2013-46616-C2-2-R) and by UNED Project (2012V/PUNED/0004). This research was also partially supported by the U.S. Army Research Laboratory under Cooperative Agreement No. W911NF-09-2-0053 (NS-CTA)

    Treatment of Social Media in Person Name Disambiguation in the Web

    Get PDF
    En este trabajo presentamos dos heurísticas para tratar páginas web correspondientes a redes sociales en el problema de desambiguación de nombres de persona en la Web. Este problema consiste en agrupar las páginas web proporcionadas por un motor de búsqueda al consultar un nombre de persona según el individuo al que se refieren. Aunque estas páginas web pueden afectar negativamente en la agrupación de los resultados, la mayoría de sistemas del estado del arte no tienen en cuenta su papel en este problema. Hemos evaluado nuestras heurísticas con dos colecciones que contienen este tipo de páginas web. Para agrupar las páginas web hemos utilizado una extensión de un algoritmo del estado del arte. Ambas heurísticas obtienen mejoras cuando hay un número elevado de páginas sociales y el algoritmo propuesto es más independiente del nivel de ambigüedad de los nombres de persona que otros propuestos por el estado del arte.In this work, we present two heuristics to treat web pages from social networks for person name disambiguation in the Web. This problem consists in clustering the results provided by a search engine when the query is a person name according to the individual they refer to. Although these web pages could negatively affect when grouping the results, most of the systems in the state-of-the-art do not take into account their role in this problem. We have evaluated our heuristics with two collections that contain this kind of web pages. We have used an extension of an algorithm of the state of the art to cluster the web pages. Both heuristics get improvements when there is a high number of social web pages, and the proposed algorithm is more independent with respect to the ambiguity degree of person names than other ones in the state of the art.Este trabajo ha sido subvencionado por el Ministerio de Ciencia e Innovación [MED-RECORD Project, TIN2013-46616-C2-2-R] y el grupo CVIP de la URJC

    EXTracción de RElaciones entre Conceptos Médicos en fuentes de información heterogéneas (EXTRECM)

    Get PDF
    En este proyecto se plantea la extracción de relaciones entre conceptos médicos en documentos científicos, historiales médicos e información de carácter general en Internet, en varias lenguas utilizando técnicas y herramientas de Procesamiento de Lenguaje Natural y Recuperación de Información. El proyecto se propone demostrar, mediante dos casos de uso, los beneficios de la aplicación de este tipo de tecnologías lingüísticas al dominio de la salud.This project addresses extraction of medical concepts relationship in scientific documents, medical records and general information on the Internet, in several languages by using advanced Natural Language Processing and Information Retrieval techniques and tools. The project aims to show, through two use cases, the benefits of the application of language technology in the health sector.TIN2013-46616-C2-1-R, TIN2013-46616-C2-2-R

    Preliminary Study of the Automatic Annotation of Hospital Discharge Report with ICD-10 codes

    Get PDF
    En la actualidad, la cantidad de recursos que se destinan a la codificación de informes médicos es enorme. Con la reciente implantación del estándar CIE-10 en el sistema sanitario español se acrecientan las dificultades, ya que se incrementa el número de posibles códigos CIE por cada informe, disponiendo de una escasa cantidad de datos generados y codificados. En este artículo se describen los retos que plantea esta tarea y se propone una primera aproximación de combinación de técnicas para implantar un sistema capaz de, dado un informe, recomendar automáticamente códigos CIE-10 a los codificadores.Nowadays, the amount of resources dedicated to encode medical reports is huge. In spite of this, an automatic solution for annotation does not appear to be consolidated. With the recent implantation of the CIE-10 standard, encoding becomes increasingly complex, since the number of possible CIE codes for each report is increased and at the same time a minimal quantity of generated and encoded data is avaliable. In this paper, it is described the challenges posed by this task and proposed a first combination of techniques for implementing a system capable of automatically assisting coding specialists by recommending CIE-10 codes regarding a medical report.Este trabajo ha sido financiado por el Ministerio de Ciencia e Innovación a través del proyecto PROSA-MED: TIN2016-77820-C3

    EXERCITA: una base de datos de material para prácticas de programación

    Get PDF
    Presentamos en este artículo el diseño y realización de una base de datos de materiales y herramientas para la práctica de la programación. El núcleo de dicha base de datos es el lenguaje eXercita, cuya descripción, implementación y uso se explican en estas páginas. Se expone igualmente la organización del contenido de la base de datos (principalmente ejercicios y prácticas), que da cuenta de sus posibilidades, flexibilidad y amplitud. Estas herramientas permiten distribuir el material en papel o en formato electrónico, ya sea mediante CD-ROM o a través de Internet

    Advanced semantic textual processing for the detection of diagnostic codes, procedures, concepts and their relationships in health records

    Get PDF
    El objetivo de este proyecto es desarrollar procesadores para el análisis automático de textos médicos, poniendo a disposición de la comunidad científica y empresarial un conjunto amplio y versátil de herramientas y recursos lingüísticos para el análisis morfológico, sintáctico y semántico, así como la asignación de códigos diagnósticos y procedimientos a informes médicos según el estándar CIE-10 y la detección de relaciones entre conceptos. Se desarrollaran herramientas para el español, dado su amplio uso en sistemas de salud a nivel internacional, explorando además otras lenguas con diferentes características como el catalán y el vasco.The main aim of this project will be to develop a set of processors for the automatic analysis of medical texts. The project will create a wide and exibleset of tools, linguistic, and semantic resources for the following tasks: morphologic, syntactic and semantic analysis adapted to medical texts; assignment of diagnostics and procedures following the ICD-10 coding, and detection of relationships between concepts. The project will develop tools for Spanish, used in multiple health systems of different countries. Moreover, we will also tackle other languages with different characteristics such as Catalan and Basque.Esta contribución ha sido subvencionada por el MINECO (TIN2016-77820-C3-1-R, TIN2016-77820-C3-2-R, TIN2016-77820-C3-3-R y AEI/FEDER, UE.

    Web page classification with social annotations

    Get PDF
    Las anotaciones generadas por usuarios en sistemas de marcadores sociales pueden proveer metadatos interesantes y muy utiles para la clasificación de páginas web. Estas anotaciones incluyen diversos tipos de información, como etiquetas y comentarios. No obstante, cada tipo de anotación tiene una naturaleza y un nivel de popularidad diferente. En este trabajo, analizamos y evaluamos la utilidad de cada una de estas anotaciones sociales para clasificar páginas web sobre una taxonomía como la del Open Directory Project. Las comparamos por separado a la clasificación basada en contenido, y también las combinamos. Nuestros experimentos muestran resultados prometedores con la utilización de anotaciones sociales para este propósito. Y además indican que su combinación con el contenido textual mejora el rendimiento de la clasificación.User-generated annotations on social bookmarking sites can provide interesting and promising metadata for web page classification. These annotations include diverse types of information, such as tags and comments. Nonetheless, each kind of annotation has a different nature and popularity level. In this work, we analyze and evaluate the usefulness of each of these social annotations to classify web pages over a taxonomy like that by the Open Directory Project. We compare them separately to the content-based classification, and also combine the different types of data. Our experiments show encouraging results with the use of social annotations for this purpose, and we found that combining these metadata with web page content improves even more the classifier’s performance.Trabajo subvencionado parcialmente por la red de investigación MAVIR (S-0505/TIC-0267), la Consejería de Educación de la Comunidad de Madrid y el proyecto QEAVis-Catiex (TIN2007-67581-C02-01) del Ministerio de Ciencia e Innovación

    NESM: una medida de similitud para el clustering multilingüe de noticias basada en entidades nombradas

    Get PDF
    Una de las tareas esenciales dentro del proceso del Clustering de Documentos es medir la similitud entre éstos. En este trabajo se presenta una nueva medida basada en el número y la categoría de las Entidades Nombradas compartidas entre documentos. Para evaluar la calidad de la medida propuesta en el clustering multilingüe de noticias, se han utilizado tres medidas de pesado diferentes y dos medidas de similitud estándar. Los resultados demuestran, con tres colecciones de noticias comparables escritas en español e inglés, que la medida propuesta es competitiva, superando en algunos casos a medidas como el coseno y el coeficiente de correlación.Measuring the similarity between documents is an essential task in Document Clustering. This paper presents a new metric that is based on the number and the category of the Named Entities shared between news documents. Three different feature-weighting functions and two standard similarity measures were used to evaluate the quality of the proposed measure in multilingual news clustering. The results, with three different collections of comparable news written in English and Spanish, indicate that the new metric performance is in some cases better than standard similarity measures such as cosine similarity and correlation coefficient.This work has been part-funded by the Education Council of the Regional Government of Madrid, MA2VICMR (S-2009/TIC-1542), and the research project Holopedia, funded by the Ministerio de Ciencia e Innovación under grant TIN2010-21128-C02

    Enriqueciendo clasificadores de páginas web con anotaciones sociales

    Get PDF
    La falta de contenido textual representativo en muchas páginas web sugiere el estudio de metadatos adicionales para mejorar tareas de clasificación de páginas web. Los sitios de marcadores sociales proveen un medio accesible para aumentar en gran medida los metadatos disponibles con anotaciones dadas por usuarios. Aún no se ha explorado a fondo en este campo. En este trabajo, analizamos la utilidad de las anotaciones sociales para clasificación de páginas web. Evaluamos los resultados sobre dos niveles de categorización, así como su utilidad para páginas de entrada y profundas. Concluimos que las anotaciones sociales pueden mejorar los clasificadores de páginas web en múltiples casos, y presentamos un método para sacar el máximo partido mediante la combinación de clasificadores.The lack of representative textual content in many web documents suggests the study of additional metadata to improve web page classification tasks. Social bookmarking sites provide an accessible way to increase available metadata in large amounts with user-provided annotations. This field remains relatively unexplored. In this work, we analyze the usefulness of social annotations for web page classification. We evaluate the results on two different categorization levels, and analyze their suitability for home and deeper pages. We conclude that social annotations could enhance web page classifiers in multiple cases, and we present a method to get the most out of them using classifier committees
    corecore