18 research outputs found

    A Method for Refining Knowledge Rules Using Exceptions

    Get PDF
    The search for patterns in data sets is a fundamental task in Data Mining, where Machine Learning algorithms are generally used. However, Machine Learning algorithms have biases that strengthen the classifica-tion task, not taking into consideration exceptions. Exceptions contra-dict common sense rules. They are generally unknown, unexpected and contradictory to the user believes. For this reason, exceptions may be interesting. In this work we propose a method to find exceptions out from common sense rules. Besides, we apply the proposed method in a real world data set, to discover rules and exceptions in the HIV virus protein cleavage process.Sociedad Argentina de Informática e Investigación Operativ

    Analysis of the level of detail in classifications of urban areas with optical VHR and hyperspectral images using C4.5 decison tree and random forest methods

    Get PDF
    sem InformaçãoAmbientes urbanos representam uma das áreas mais desafiadoras do sensoriamento remoto devido à grande diversidade encontrada nos materiais presentes na sua superfície. O uso de imagens com alta resolução espacial e alta resolução espectral surge como uma232371388sem Informaçãosem Informaçãosem Informaçã

    ANÁLISE DO NÍVEL DE LEGENDA DE CLASSIFICAÇÃO DE AREAS URBANAS EMPREGANDO IMAGENS MULTIESPECTRAIS E HIPERESPECTRAIS COM OS MÉTODOS ÁRVORE DE DECISÃO C4.5 E FLORESTA RANDÔMICA

    Get PDF
    Ambientes urbanos representam uma das áreas mais desafiadoras do sensoriamento remoto devido à grande diversidade encontrada nos materiais presentes na sua superfície. O uso de imagens com alta resolução espacial e alta resolução espectral surge como uma alternativa para aplicações urbanas, pois a combinação destas duas características permite uma melhor detecção e discriminação de alvos. O presente trabalho tem um duplo objetivo: i) avaliar dois conjuntos de dados na classificação fina de alvos urbanos para dois níveis de legenda (com 11 e 38 classes de cobertura do solo): um deles composto exclusivamente por uma imagem orbital multiespectral (WV-2) e o outro conjunto composto exclusivamente por uma imagem aerotransportada hiperespectral (SpecTIR), ii) bem como testar o desempenho de dois métodos diferentes de classificação de imagens, Árvore de Decisão C4.5 e Floresta Randômica (Random Forest), para ambos os níveis de legenda. Oito experimentos de classificação foram realizados para atender a tais objetivos de investigar a eficácia dos sensores e dos métodos em dois níveis de detalhamento. Foram obtidas classificações de elevada acurácia. Demonstrou-se para todos os níveis de detalhamento e métodos que as classificações obtidas com dados do sensor SpecTIR apresentaram resultados significantemente superiores aos das classificações com dados do sensor WV-2

    First international workshop on recent trends in news information retrieval (NewsIR’16)

    Get PDF
    The news industry has gone through seismic shifts in the past decade with digital content and social media completely redefining how people consume news. Readers check for accurate fresh news from multiple sources throughout the day using dedicated apps or social media on their smartphones and tablets. At the same time, news publishers rely more and more on social networks and citizen journalism as a frontline to breaking news. In this new era of fast-flowing instant news delivery and consumption, publishers and aggregators have to overcome a great number of challenges. These include the verification or assessment of a source’s reliability; the integration of news with other sources of information; real-time processing of both news content and social streams in multiple languages, in different formats and in high volumes; deduplication; entity detection and disambiguation; automatic summarization; and news recommendation. Although Information Retrieval (IR) applied to news has been a popular research area for decades, fresh approaches are needed due to the changing type and volume of media content available and the way people consume this content. The goal of this workshop is to stimulate discussion around new and powerful uses of IR applied to news sources and the intersection of multiple IR tasks to solve real user problems. To promote research efforts in this area, we released a new dataset consisting of one million news articles to the research community and introduced a data challenge track as part of the workshop

    "New approaches in machine learning for rule generation, class imbalance and rankings"

    No full text
    Algoritmos de aprendizado de máquina são frequentemente os mais indicados em uma grande variedade de aplicações de mineração dados. Entretanto, a maioria das pesquisas em aprendizado de máquina refere-se ao problema bem definido de encontrar um modelo (geralmente de classificação) de um conjunto de dados pequeno, relativamente bem preparado para o aprendizado, no formato atributo-valor, no qual os atributos foram previamente selecionados para facilitar o aprendizado. Além disso, o objetivo a ser alcançado é simples e bem definido (modelos de classificação precisos, no caso de problemas de classificação). Mineração de dados propicia novas direções para pesquisas em aprendizado de máquina e impõe novas necessidades para outras. Com a mineração de dados, algoritmos de aprendizado estão quebrando as restrições descritas anteriormente. Dessa maneira, a grande contribuição da área de aprendizado de máquina para a mineração de dados é retribuída pelo efeito inovador que a mineração de dados provoca em aprendizado de máquina. Nesta tese, exploramos alguns desses problemas que surgiram (ou reaparecem) com o uso de algoritmos de aprendizado de máquina para mineração de dados. Mais especificamente, nos concentramos seguintes problemas: Novas abordagens para a geração de regras. Dentro dessa categoria, propomos dois novos métodos para o aprendizado de regras. No primeiro, propomos um novo método para gerar regras de exceção a partir de regras gerais. No segundo, propomos um algoritmo para a seleção de regras denominado Roccer. Esse algoritmo é baseado na análise ROC. Regras provêm de um grande conjunto externo de regras e o algoritmo proposto seleciona regras baseado na região convexa do gráfico ROC. Proporção de exemplos entre as classes. Investigamos vários aspectos relacionados a esse tópico. Primeiramente, realizamos uma série de experimentos em conjuntos de dados artificiais com o objetivo de testar nossa hipótese de que o grau de sobreposição entre as classes é um fator complicante em conjuntos de dados muito desbalanceados. Também executamos uma extensa análise experimental com vários métodos (alguns deles propostos neste trabalho) para balancear artificialmente conjuntos de dados desbalanceados. Finalmente, investigamos o relacionamento entre classes desbalanceadas e pequenos disjuntos, e a influência da proporção de classes no processo de rotulação de exemplos no algoritmo de aprendizado de máquina semi-supervisionado Co-training. Novo método para a combinação de rankings. Propomos um novo método, chamado BordaRank, para construir ensembles de rankings baseado no método de votação borda count. BordaRank pode ser aplicado em qualquer problema de ordenação binária no qual vários rankings estejam disponíveis. Resultados experimentais mostram uma melhora no desempenho com relação aos rankings individuais, alem de um desempenho comparável com algoritmos mais sofisticados que utilizam a predição numérica, e não rankings, para a criação de ensembles para o problema de ordenação binária.Machine learning algorithms are often the most appropriate algorithms for a great variety of data mining applications. However, most machine learning research to date has mainly dealt with the well-circumscribed problem of finding a model (generally a classifier) given a single, small and relatively clean dataset in the attribute-value form, where the attributes have previously been chosen to facilitate learning. Furthermore, the end-goal is simple and well-defined, such as accurate classifiers in the classification problem. Data mining opens up new directions for machine learning research, and lends new urgency to others. With data mining, machine learning is now removing each one of these constraints. Therefore, machine learning's many valuable contributions to data mining are reciprocated by the latter's invigorating effect on it. In this thesis, we explore this interaction by proposing new solutions to some problems due to the application of machine learning algorithms to data mining applications. More specifically, we contribute to the following problems. New approaches to rule learning. In this category, we propose two new methods for rule learning. In the first one, we propose a new method for finding exceptions to general rules. The second one is a rule selection algorithm based on the ROC graph. Rules come from an external larger set of rules and the algorithm performs a selection step based on the current convex hull in the ROC graph. Proportion of examples among classes. We investigated several aspects related to this issue. Firstly, we carried out a series of experiments on artificial data sets in order to verify our hypothesis that overlapping among classes is a complicating factor in highly skewed data sets. We also carried out a broadly experimental analysis with several methods (some of them proposed by us) that artificially balance skewed datasets. Our experiments show that, in general, over-sampling methods perform better than under-sampling methods. Finally, we investigated the relationship between class imbalance and small disjuncts, as well as the influence of the proportion of examples among classes in the process of labelling unlabelled cases in the semi-supervised learning algorithm Co-training. New method for combining rankings. We propose a new method called BordaRanking to construct ensembles of rankings based on borda count voting, which could be applied whenever only the rankings are available. Results show an improvement upon the base-rankings constructed by taking into account the ordering given by classifiers which output continuous-valued scores, as well as a comparable performance with the fusion of such scores

    The Discover integration framework

    No full text
    Talvez uma das maiores capacidades do ser humano seja a sua habilidade de aprender a partir de observações e transmitir o que aprendeu para outros humanos. Durante séculos, a humanidade vem tentado compreender o mundo em que vive e, a partir desse novo conhecimento adquirido, melhorar o mundo em que vive. O desenvolvimento da tecnologia colocou a descoberta de conhecimento em um momento ímpar na história da humanidade. Com os progressos da Ciência da Computação, e, em particular, da Inteligência Artificial - IA - e Aprendizado de Máquina -AM, hoje em dia é possível, a partir de métodos de inferência indutiva e utilizando um conjunto de exemplos, descobrir algum tipo de conhecimento implícito nesses exemplos. Entretanto, por ser uma área de pesquisa relativamente nova, e por envolver um processo tanto iterativo quanto interativo, atualmente existem poucas ferramentas que suportam eficientemente a descoberta de conhecimento a partir dos dados. Essa falta de ferramentas se agrava ainda mais no que se refere ao seu uso por pesquisadores em Aprendizado de Máquina e Aquisição de Conhecimento. Esses fatores, além do fato que algumas pesquisas em nosso Laboratório de Inteligência Computacional - LABIC - têm alguns componentes em comum, motivaram a elaboração do projeto Discover, que consiste em uma estratégia de trabalho em conjunto, envolvendo um conjunto de ferramentas que se integram e interajam, e que supram as necessidades de pesquisa dos integrantes do nosso laboratório. O Discover também pode ser utilizado como um campo de prova para desenvolver novas ferramentas e testar novas idéias. Como o Discover tem como principal finalidade o seu uso e extensão por pesquisadores, uma questão principal é que a arquitetura do projeto seja flexível o suficiente para permitir que novas pesquisas sejam englobadas e, simultaneamente, deve impor determinados padrões que permitam a integração eficiente de seus componentes. Neste trabalho, é proposto um framework de integração de componentes que tem como principal objetivo possibilitar a criação de um sistema computacional a partir das ferramentas desenvolvidas para serem utilizadas no projeto Discover. Esse framework compreende um mecanismo de adaptação de interface que cria uma camada (interface horizontal) sobre essas ferramentas, um poderoso mecanismo de metadados, que é utilizado para descrever tanto os componentes que implementam as funcionalidades do sistema quanto as configurações de experimentos criadas pelos usuário, que serão executadas pelo framework, e um ambiente de execução para essas configurações de experimentos.One of human greatest capability is the ability to learn from observed instances of the world and to transmit what have been learnt to others. For thousands of years, we have tried to understand the world, and used the acquired knowledge to improve it. Nowadays, due to the progress in digital data acquisition and storage technology as well as significant progress in the field of Artificial Intelligence - AI, particularly Machine Learning - ML, it is possible to use inductive inference in huge databases in order to find, or discover, new knowledge from these data. The discipline concerned with this task has become known as Knowledge Discovery from Databases - KDD. However, this relatively new research area offers few tools that can efficiently be used to acquire knowledge from data. With these in mind, a group of researchers at the Computational Intelligence Laboratory - LABIC - is working on a system, called Discover, in order to help our research activities in KDD and ML. The aim of the system is to integrate ML algorithms mostly used by the community with the data and knowledge processing tools developed as the results of our work. The system can also be used as a workbench for new tools and ideas. As the main concern of the Discover is related to its use and extension by researches, an important question is related to the flexibility of its architecture. Furthermore, the Discover architecture should allow new tools be easily incorporated. Also, it should impose strong patterns to guarantee efficient component integration. In this work, we propose a component integration framework that aims the development of an integrated computational environment using the tools already implemented in the Discover project. The proposed component integration framework has been developed keeping in mind its future integration with new tools. This framework offers an interface adapter mechanism that creates a layer (horizontal interface) over these tools, a powerful metadata mechanism, which is used to describe both components implementing systems' functionalities and experiment configurations created by the user, and an environment that enables these experiment execution

    Comparing modern and traditional modeling methods for predicting soil moisture in IoT-based irrigation systems

    No full text
    Proper water management is crucial for agriculture, as its irrigation systems can waste approximately 60% of water. Using IoT for irrigation based on soil moisture can help reduce waste. This study used multidimensional time series modeling to predict soil moisture using two years of data on a US farm, including factors such as soil moisture, temperature, and weather. The models assessed were machine learning algorithms like Extreme Gradient Boosting and Random Forests, Deep Learning's Spectral Temporal Graph Neural Network (StemGNN), and Vector Autoregression as a reference model. Random Forest was the most efficient and stable model. Furthermore, the spectral temporal graph neural network could not outperform the reference model. Comparing Random Forest with univariate algorithms like Naive, Exponential Smoothing, and Autoregressive Integrated Moving Average (ARIMA) showed univariate's better performance in 9 of 10 datasets, with ARIMA being best in 8. A substantial disparity is observed when considering the Mean Absolute Percentage Error (MAPE) metric. ARIMA yields an MAPE of 0.052, while StemGNN reports 0.127 as the major difference. ARIMA achieves a MAPE of 0.046 for the minor difference, whereas StemGNN obtains 0.038. In the remaining eight datasets, ARIMA consistently outperforms StemGNN by at least 30%. In summary, modern methods could not beat the older methods in the study data sets

    An Integrated Environment for Data Mining

    No full text
    In the last years the size of databases, either scientific or business-like, has grown at a fast rate imposing a need for new generation techniques and methods to help data analysis and knowledge discovery. These methods and tools are object of study of a relatively new research area, called Data Mining. Aiming to help research in this area we are developing a free software integrated environment, called DISCOVER. This paper describes the approach we are using to integrate the components in that system as well as the development of what is considered a new user interface approach on this area

    Predicting the ideological orientation during the Spanish 24M elections in Twitter using machine learning

    No full text
    Through the application of machine learning techniques, this paper aims to estimate the importance of messages with ideological load during the elections held in Spain on May 24th, 2015 posted by Twitter’s users, as well as other variables associated with the publication of these types of messages. Our study collected and analysed 24,900 tweets associated to two of the main trending topics’ hashtags (#24M and #Elections2015) used in the election day and build a predictive model to infer the ideological orientation for the messages which made use of these hashtags during Election Day. This approach allows us to classify the ideological orientation of all collected tweets, instead of only tweets that explicitly express their ideological or partisan preferences in the messages. Using the ideological orientation for all tweets predicted by our model, it was possible to identify how messages with a defined ideological load were pushed forward by users with leftist tendencies. We also observed a relationship between these messages and the partisan orientation of those who published them

    La orientación ideológica de los mensajes publicados en Twitter durante el 24M en España

    No full text
    Current digital social scenarios are being increasingly used as platforms for discussing and sharing one’s views. In this vein, this paper aims to identify some of the general features of citizen participation on Twitter during the Spanish elections held on 24 May 2015, as well as to estimate the weight or importance of ideologically charged messages and the variables associated with the publication of this kind of messages. This is based on the social media mining of 24900 tweets gathered from the #24M and #Elecciones2015 hashtags. The study allows us to observe, among other things, the role taken on by the citizens, whose participation in this election focused on disclosing the events of this day, rather than on establishing the different ideological positions that indicated their partisan preferences. In spite of this, we were able to see how messages with a clearly defined ideological charge were particularly encouraged by users with a progressive ideological orientation or leftist tendencies, as well as the existing relationship between the publication of these messages and the party orientation of those who disclosed this type of messages.Os cenários sociais digitais dispostos atualmente são cada vez mais usados como plataformas para a deliberação e exposição de opiniões. É no marco do que aqui está exposto que este artigo busca identificar alguns dos rasgos gerais de participação cidadã em Twitter durante as eleições realizadas na Espanha no dia 24 de maio de 2015, assim como também estimar o peso ou importância que as mensagens tiveram com carga ideológica definida e as variáveis associadas à publicação deste tipo de mensagens. Isso, a partir do social media mining de 24 900 tweets, coletados a partir dos hashtags #24M e #Elecciones2015. O estudo nos permite observar, entre outras coisas, o papel assumido pelos cidadãos, que centralizaram a sua participação nesta eleição na divulgação do acontecer desta jornada mais do que no estabelecimento das diferentes posturas ideológicas que denotassem suas preferências partidárias. Apesar disso, pôde-se ver como as mensagens com carga ideológica claramente definida estiveram mais impulsionadas por usuários com inclinação ideológica progressista ou de tendências esquerdistas, além da relação existente entre a publicação destes mensagens e a orientação partidária daqueles de divulgaram este tipo de mensagens.Los escenarios sociales digitales dispuestos en la actualidad son empleados cada vez más como plataformas para la deliberación y exposición de opiniones. Es en el marco de lo aquí expuesto que este artículo busca identificar algunos de los rasgos generales de participación ciudadana llevado a cabo en Twitter durante las elecciones realizadas en España el 24 de mayo de 2015, así como estimar el peso o la importancia que tuvieron los mensajes con carga ideológica definida y las variables asociadas a la publicación de este tipo de mensajes. Ello, a partir del social media mining de 24 900 tuiteos, recolectados a partir de los hashtags #24M y #Elecciones2015. El estudio nos permite observar, entre otras cosas, el rol asumido por los ciudadanos, quienes centraron su participación en esta elección en la divulgación del acontecer de esta jornada más que en el establecimiento de las diferentes posturas ideológicas que denotasen sus preferencias partidistas. A pesar de ello, se pudo ver cómo los mensajes con carga ideológica claramente definida estuvieron más impulsados por usuarios con orientación ideológica progresista o de tendencias de izquierda, además de la relación existente entre la publicación de estos mensajes y la orientación partidista de quienes divulgaron este tipo de mensajes
    corecore