13 research outputs found

    Evolving Lucene search queries for text classification

    Get PDF
    We describe a method for generating accurate, compact, human understandable text classifiers. Text datasets are indexed using Apache Lucene and Genetic Programs are used to construct Lucene search queries. Genetic programs acquire fitness by producing queries that are effective binary classifiers for a particular category when evaluated against a set of training documents. We describe a set of functions and terminals and provide results from classification tasks

    Automatic generation of text categorization rules in a hybrid method based on machine learning

    Get PDF
    En este artículo se evalúan diferentes técnicas para la generación automática de reglas que se emplean en un método híbrido de categorización automática de texto. Este método combina un algoritmo de aprendizaje computacional con diferentes sistemas basados en reglas en cascada empleados para el filtrado y reordenación de los resultados proporcionados por dicho modelo base. Aquí se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. Para la evaluación se utiliza el corpus de noticias Reuters-21578. Los resultados demuestran que los métodos de generación de reglas propuestos producen resultados muy próximos a los obtenidos con la aplicación de reglas generadas manualmente y que el sistema híbrido propuesto obtiene una precisión y cobertura comparables a la de los mejores métodos del estado del arte.This paper discusses several techniques for the automatic generation of rules to be used in a novel hybrid method for text categorization. This approach combines a machine learning algorithm along with a different rule-based expert systems in cascade used to filter and re-rank the output of the base model provided by the previous classifier. This paper describes an implementation based on kNN algorithm and a basic rule language that expresses lists of terms appearing in the text. The popular Reuters-21578 news corpus is used for testing. Results show that the proposed methods for automatic rule generation achieve precision values that are very similar to the ones achieved by manually defined rule sets, and that this hybrid approach achieves a precision that is comparable to other top state-of-the-art methods.Esta investigación ha sido parcialmente financiada por los proyectos de I+D BUSCAMEDIA (CEN-20091026), MULTIMEDICA (TIN2010-20644-C03-01) y BRAVO (TIN2007-67407-C03-01)

    Generación automática de reglas de categorización de texto en un método híbrido basado en aprendizaje

    Get PDF
    En este artículo se evalúan diferentes técnicas para la generación automática de reglas que se emplean en un método híbrido de categorización automática de texto. Este método combina un algoritmo de aprendizaje computacional con diferentes sistemas basados en reglas en cascada empleados para el filtrado y reordenación de los resultados proporcionados por dicho modelo base. Aquí se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. Para la evaluación se utiliza el corpus de noticias Reuters-21578. Los resultados demuestran que los métodos de generación de reglas propuestos producen resultados muy próximos a los obtenidos con la aplicación de reglas generadas manualmente y que el sistema híbrido propuesto obtiene una precisión y cobertura comparables a la de los mejores métodos del estado del arte

    Método híbrido para categorización de texto basado en aprendizaje y reglas

    Get PDF
    En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte

    Hybrid Approach Combining Machine Learning and a Rule-Based Expert System for Text Categorization

    Get PDF
    This paper discusses a novel hybrid approach for text categorization that combines a machine learning algorithm, which provides a base model trained with a labeled corpus, with a rule-based expert system, which is used to improve the results provided by the previous classifier, by filtering false positives and dealing with false negatives. The main advantage is that the system can be easily fine-tuned by adding specific rules for those noisy or conflicting categories that have not been successfully trained. We also describe an implementation based on k-Nearest Neighbor and a simple rule language to express lists of positive, negative and relevant (multiword) terms appearing in the input text. The system is evaluated in several scenarios, including the popular Reuters-21578 news corpus for comparison to other approaches, and categorization using IPTC metadata, EUROVOC thesaurus and others. Results show that this approach achieves a precision that is comparable to top ranked methods, with the added value that it does not require a demanding human expert workload to trai

    A comparison of Lucene search queries evolved as text classifiers

    Get PDF
    In this article, we use a genetic algorithm to evolve seven different types of Lucene search query with the objective of generating accurate and readable text classifiers. We compare the effectiveness of each of the different types of query using three commonly used text datasets. We vary the number of words available for classification and compare results for 4, 8, and 16 words per category. The generated queries can also be viewed as labels for the categories and there is a benefit to a human analyst in being able to read and tune the classifier. The evolved queries also provide an explanation of the classification process. We consider the consistency of the classifiers and compare their performance on categories of different complexities. Finally, various approaches to the analysis of the results are briefly explored

    Generación automática de reglas de categorización de texto en un método híbrido basado en aprendizaje

    Get PDF
    En este artículo se evalúan diferentes técnicas para la generación automática de reglas que se emplean en un método híbrido de categorización automática de texto. Este método combina un algoritmo de aprendizaje computacional con diferentes sistemas basados en reglas en cascada empleados para el filtrado y reordenación de los resultados proporcionados por dicho modelo base. Aquí se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. Para la evaluación se utiliza el corpus de noticias Reuters-21578. Los resultados demuestran que los métodos de generación de reglas propuestos producen resultados muy próximos a los obtenidos con la aplicación de reglas generadas manualmente y que el sistema híbrido propuesto obtiene una precisión y cobertura comparables a la de los mejores métodos del estado del arte

    Método híbrido para categorización de texto basado en aprendizaje y reglas

    Get PDF
    En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte

    Using feature construction to avoid large feature spaces in text classification

    Full text link

    Competências e habilidades digitais requeridas aos profissionais da informação nos anúncios brasileiros de emprego na web

    Get PDF
    We analyze online job ads to identify the digital competences that companies and organizations demand from information professionals. This information is obtained from a content analysis of online job ads. Their retrieval from the web is terminological, and specialists select ads that include knowledge, activities, or requirements related to information science and digital transformation. After the ad format is standardized, the ads are analyzed using an ad hoc taxonomy for categorization. The taxonomy and the corpus of the ads are compared using automatized XML files in Apache Solr. Based on the taxonomy, we approach the text of the ads. The obtained data are stored as CSV files, from which we generate the general and specific groups of knowledge. The results are displayed according to classes of knowledge and professional profiles, focusing on those that relate to digital transformation. We explain the activity branches and the transversal informatics knowledge of the companies offering the positions. The specific knowledge in the digital environment is then presented, interpreted, and grouped according to the ads" most characteristic facets: digital objects, data banks; digital services; data analysis; knowledge banks and artificial intelligence; software; knowledge organization systems (KSO); rights and values; and web and portals. These facets are distinguished by their frequency and by the transformations they generate in professional activities. We conclude by considering the appearance of profiles that are quite removed from traditional denominations and activities, as well as considering the effects of digital transformation in a highly complex labor market and on the development of digital competences.São analisados os anúncios de emprego através da web para identificar a competência digital que as empresas e organizações estão solicitando aos profissionais de informação. A informação é obtida através da análise do conteúdo dos anúncios de oportunidade de emprego na web. A sua recuperação da web é terminológica e a seleção final é feita por especialistas sempre que apresentam conhecimentos, atividades ou requisitos relacionados com a Ciência da Informação e a transformação digital. Depois de padronizar o formato, os anúncios são contrastados com uma taxonomia elaborada ad hoc, a fim de categorizá-los. Taxonomia e corpus de anúncios são comparados a partir de arquivos XML automatizados em Apache Solr. Desde a taxonomia se lançam as consultas ao texto dos anúncios. Os dados obtidos se armazenam como conjuntos em formato CSV desde os quais se geram os grupos de conhecimentos gerais e específicos. Os resultados são apresentados, primeiro, por classes de conhecimentos e por perfis profissionais, centrando a atenção nos relacionados com a transformação digital. Se explicam os ramos de atividade das empresas que convocam as vagas, ao tempo que os conhecimentos transversais de informática. Em seguida se apresentam e interpretam os conhecimentos específicos do âmbito digital, agrupados nas facetas mais determinantes: objetos digitais, bancos de dados, serviços digitais, análise de dados, bancos de conhecimentos e inteligência artificial, software, sistemas de organização do conhecimento (SOC), direitos e valores, web e portais. Distinguem-se pelo escopo da sua frequência e pelas mudanças que implicam nas atividades profissionais. Conclui-se considerando o surgimento de perfis bem distantes das denominações e atividades tradicionais, bem como as mudanças que a transformação digital apresenta em um cenário altamente complexo para o mercado de trabalho e o desenvolvimento de competências digitaisProjeto de pesquisa com apoio Fapesp (Fundação de Amparo à Pesquisa do Estado de São Paulo, Brasil). Processo 2019/01128-7 e 2019/02595-8
    corecore