40,856 research outputs found

    A fuzzy random forest

    Get PDF
    AbstractWhen individual classifiers are combined appropriately, a statistically significant increase in classification accuracy is usually obtained. Multiple classifier systems are the result of combining several individual classifiers. Following Breiman’s methodology, in this paper a multiple classifier system based on a “forest” of fuzzy decision trees, i.e., a fuzzy random forest, is proposed. This approach combines the robustness of multiple classifier systems, the power of the randomness to increase the diversity of the trees, and the flexibility of fuzzy logic and fuzzy sets for imperfect data management. Various combination methods to obtain the final decision of the multiple classifier system are proposed and compared. Some of them are weighted combination methods which make a weighting of the decisions of the different elements of the multiple classifier system (leaves or trees). A comparative study with several datasets is made to show the efficiency of the proposed multiple classifier system and the various combination methods. The proposed multiple classifier system exhibits a good accuracy classification, comparable to that of the best classifiers when tested with conventional data sets. However, unlike other classifiers, the proposed classifier provides a similar accuracy when tested with imperfect datasets (with missing and fuzzy values) and with datasets with noise

    Multispectral Image Analysis Using Random Forest

    Get PDF
    Classical methods for classification of pixels in multispectral images include supervised classifiers such as the maximum-likelihood classifier, neural network classifiers, fuzzy neural networks, support vector machines, and decision trees. Recently, there has been an increase of interest in ensemble learning – a method that generates many classifiers and aggregates their results. Breiman proposed Random Forestin 2001 for classification and clustering. Random Forest grows many decision trees for classification. To classify a new object, the input vector is run through each decision tree in the forest. Each tree gives a classification. The forest chooses the classification having the most votes. Random Forest provides a robust algorithm for classifying large datasets. The potential of Random Forest is not been explored in analyzing multispectral satellite images. To evaluate the performance of Random Forest, we classified multispectral images using various classifiers such as the maximum likelihood classifier, neural network, support vector machine (SVM), and Random Forest and compare their results

    A new approach to fuzzy random forest generation

    Get PDF
    Random forests have proved to be very effective classifiers, which can achieve very high accuracies. Although a number of papers have discussed the use of fuzzy sets for coping with uncertain data in decision tree learning, fuzzy random forests have not been particularly investigated in the fuzzy community. In this paper, we first propose a simple method for generating fuzzy decision trees by creating fuzzy partitions for continuous variables during the learning phase. Then, we discuss how the method can be used for generating forests of fuzzy decision trees. Finally, we show how these fuzzy random forests achieve accuracies higher than two fuzzy rule-based classifiers recently proposed in the literature. Also, we highlight how fuzzy random forests are more tolerant to noise in datasets than classical crisp random forests

    Fuzzy Random Forest per Big Data su piattaforma Apache Hadoop

    Get PDF
    Le tecniche di classificazione permettono di assegnare una categoria (detta classe) ad un oggetto descritto da un certo numero di attributi. Tali sistemi hanno la capacità di apprendere dai dati, analizzando un insieme di entità per le quali è nota la classe di appartenenza, al fine di dedurre regole di classificazione. In questo modo è possibile decidere se una data entità è parte o meno di una certa categoria e offrire un supporto alle decisioni strategiche in diversi ambiti lavorativi. E' opinione ormai consolidata e comprovata da diversi studi teorici e sperimentali che gli alberi decisionali rappresentino una tecnica di machine learning efficiente per la risoluzione di problemi di classificazione. La semplicità dell'algoritmo di apprendimento, l'interpretabilità e la potenza predittiva rappresentano i principali vantaggi derivanti dal loro utilizzo. Tuttavia essi, come del resto molte delle tecniche convenzionali, risultano altamente instabili quando piccoli disturbi vengono introdotti nei dati . Errori strumentali e/o sorgenti di rumore possono alterare la misura di una o più variabili durante un esperimento, dando luogo ad informazioni non complete o imprecise. A volte il grado di imprecisione è talmente influente da non poter essere semplicemente ignorato o modellato attraverso una distribuzione di probabilità. Situazioni di questo tipo sono inevitabili in molte applicazioni reali ed è pertanto necessario tener conto della presenza di una certa imprecisione nei dati raccolti. Negli ultimi decenni, una delle soluzioni più adottate per gestire la rumorosità dei dati, è sicuramente quella legata all'introduzione della logica fuzzy, in grado di trattare quantitativamente l'incertezza e l'imprecisione della realtà. Integrare gli alberi decisionali con il ragionamento approssimato dato dalla logica fuzzy permette di godere dei vantaggi di entrambi: da un lato la semplicità, l'interpretabilità e la popolarità del primo, dall'altro il trattamento efficace delle informazioni imprecise del secondo. L'albero che ne risulta prende il nome di albero decisionale fuzzy o, in lingua inglese, fuzzy decision tree. Una Random Forest è un multiclassificatore (o ensemble learning) che costruisce una moltitudine di alberi decisionali e che in uscita, come risultato, dá la moda delle decisioni prese in fase di classificazione dai singoli alberi. Ciascuno di essi viene costruito combinando insieme le tecniche di bagging e di random attribute selection al fine di creare alberi che siano diversi tra loro. Il bagging permette di generare ogni classificatore della foresta a partire da un diverso insieme di esempi (istanze o record), creato campionando con ripescamento dall'insieme dei dati originale. L'utilizzo della tecnica di random attribute selection, inoltre, consente di selezionare, per ogni nodo dell'albero, un sottoinsieme delle variabili del problema di classificazione che si intende risolvere, e di scegliere tra queste la migliore per proseguire la generazione del modello. Negli ultimi anni, la crescita imponente della quantità di informazioni disponibili ed in possesso delle aziende, ha portato alla nascita del fenomeno dei Big Data. Con tale termine non si intende solo un grande volume di dati, ma anche un insieme di caratteristiche che li contraddistinguono dai classici concetti di massive data o very large data. Spesso, infatti, i Big Data si presentano in forma non strutturata e con una velocità superiore rispetto al passato, aspetti che non ne consentono una facile acquisizione. L'insieme di tali caratteristiche non permette un'analisi efficace se si utilizzano le tecniche tradizionali, ed è necessario pertanto definire una nuova generazione di strumenti ed architetture grazie alle quali effettuare in modo veloce ed efficace le operazioni di acquisizione ed estrazione della conoscenza. L'aggiornamento tecnologico, in tale direzione, è attualmente in corso, e ogni giorno sempre nuovi sforzi vengono compiuti nel campo della ricerca per proporre nuovi approcci di analisi. Nell'ambito dell'apprendimento automatico (meglio noto in letteratura come machine learning) l'accuratezza degli algoritmi di classificazione è fortemente influenzata dal metodo utilizzato per discretizzare il dominio degli attributi numerici. La presente tesi descrive il lavoro di ricerca condotto al fine di individuare un nuovo metodo, basato sulla logica fuzzy, di discretizzazione di tali attributi, da utilizzare per la costruzione di alberi decisionali fuzzy e, in particolar modo, per la definizione di un nuovo approccio per la generazione di una Fuzzy Random Forest (i.e. una Random Forest costituita da una moltitudine di fuzzy decision tree) nel contesto dei Big Data. In letteratura fino ad oggi è possibile trovare altre proposte sullo stesso filone di studio. Tuttavia la maggior parte di esse presenta metodi che effettuano la discretizzazione del dominio degli attributi numerici solo prima della fase di addestramento del modello. L' approccio da noi proposto, invece, prevede che la discretizzazione venga effettuata contestualmente alla fase di costruzione degli alberi che costituiranno la foresta. Il partizionamento fuzzy dei domini degli attributi numerici è, pertanto, intrinseco all'algoritmo di generazione del modello. La soluzione proposta è stata completamente integrata all'interno del framework Apache Mahout, nota libreria open-source per l'analisi di grandi moli di dati e l'esecuzione parallela di algoritmi di machine learning in un ambiente di calcolo distribuito. I test sono stati condotti in tre fasi e hanno previsto il confronto del nuovo classificatore con la versione crisp dell'algoritmo. La prima fase è stata effettuata utilizzando 28 dataset di piccole dimensioni (da 80 fino a 7200 istanze) e ha rivelato come le fuzzy random forest proposte siano statisticamente equivalenti alle classiche random forest. Nella seconda fase è stata prevista l'aggiunta di rumore ai dataset precedentemente utilizzati: in questo caso è stato possibile osservare come le fuzzy random forest siano statisticamente superiori alle classiche, confermando quanto ci si aspettava, ovvero che l'utilizzo della logica fuzzy è in grado di garantire una maggiore robustezza nelle situazioni in cui si opera con dati incerti o rumorosi. L'ultima fase di test ha previsto la valutazione del nuovo classificatore su Big Dataset, rumorosi e non rumorosi, utilizzando come strumento di calcolo distribuito Apache Hadoop su un cluster composto da quattro macchine. Parte del lavoro di ricerca condotto per lo svolgimento di questa tesi, grazie ai buoni risultati raggiunti, ha permesso la stesura del paper ''A New Approach to Fuzzy Random Forest Generation'', accettato dall' IEEE International Conference on Fuzzy Systems (Agosto 2015). La tesi è organizzata come segue. Nel Capitolo 2 verrà fornita una breve panoramica dello stato dell'arte, descrivendo le principali caratteristiche degli alberi decisionali, delle Random forest e delle rispettive versioni fuzzy proposte fin ad oggi in letteratura. Esporremo inoltre i concetti che identificano il quadro teorico nel quale è stata svolta la ricerca e affronteremo le problematiche derivanti dal cambiamento del contesto tecnologico dovuto al fenomeno dei Big Data. Nel capitolo 3 verranno presentati gli strumenti utilizzati per lo svolgimento del lavoro di tesi, nello specifico descrivendo la libreria Random Forest di Mahout e l'architettura che permette di effettuare il processing distribuito di grandi moli di dati. Nel Capitolo 4 entreremo nel dettaglio della soluzione proposta. Descriveremo inizialmente il particolare metodo adottato per la discretizzazione del dominio degli attributi numerici e come questo venga utilizzato per addestrare un fuzzy decision tree. Continueremo spiegando come viene generata la Fuzzy Random Forest proposta, quali sono i parametri scelti ed illustrando i diversi modi in cui è possibile ottenere la decisione finale nella fase di classificazione. Nel Capitolo 5 verrà descritta l'implementazione dell'algoritmo, descrivendo nel dettaglio le principali soluzioni adottate per la sua realizzazione. Nel Capitolo 6 mostreremo i risultati dei test, effettuati su 28 dataset di piccole dimensioni (da 80 a 7200 istanze), su 6 Big dataset e sulle loro rispettive versioni rumorose, confrontando le performance ottenute con quelle raggiunte sugli stessi dalle Random Forest classiche. Nel Capitolo 7 verrà descritto uno studio atto a valutare la scalabilità della nostra Fuzzy Random Forest ed, infine, il Capitolo 8 presenterà le conclusioni generali sul lavoro svolto

    Segmentation and classification of individual tree crowns

    Get PDF
    By segmentation and classification of individual tree crowns in high spatial resolution aerial images, information about the forest can be automatically extracted. Segmentation is about finding the individual tree crowns and giving each of them a unique label. Classification, on the other hand, is about recognising the species of the tree. The information of each individual tree in the forest increases the knowledge about the forest which can be useful for managements, biodiversity assessment, etc. Different algorithms for segmenting individual tree crowns are presented and also compared to each other in order to find their strengths and weaknesses. All segmentation algorithms developed in this thesis focus on preserving the shape of the tree crown. Regions, representing the segmented tree crowns, grow according to certain rules from seed points. One method starts from many regions for each tree crown and searches for the region that fits the tree crown best. The other methods start from a set of seed points, representing the locations of the tree crowns, to create the regions. The segmentation result varies from 73 to 95 % correctly segmented visual tree crowns depending on the type of forest and the method. The former value is for a naturally generated mixed forest and the latter for a non-mixed forest. The classification method presented uses shape information of the segments and colour information of the corresponding tree crown in order to decide the species. The classification method classifies 77 % of the visual trees correctly in a naturally generated mixed forest, but on a forest stand level the classification is over 90 %

    A machine learning-based framework for preventing video freezes in HTTP adaptive streaming

    Get PDF
    HTTP Adaptive Streaming (HAS) represents the dominant technology to deliver videos over the Internet, due to its ability to adapt the video quality to the available bandwidth. Despite that, HAS clients can still suffer from freezes in the video playout, the main factor influencing users' Quality of Experience (QoE). To reduce video freezes, we propose a network-based framework, where a network controller prioritizes the delivery of particular video segments to prevent freezes at the clients. This framework is based on OpenFlow, a widely adopted protocol to implement the software-defined networking principle. The main element of the controller is a Machine Learning (ML) engine based on the random undersampling boosting algorithm and fuzzy logic, which can detect when a client is close to a freeze and drive the network prioritization to avoid it. This decision is based on measurements collected from the network nodes only, without any knowledge on the streamed videos or on the clients' characteristics. In this paper, we detail the design of the proposed ML-based framework and compare its performance with other benchmarking HAS solutions, under various video streaming scenarios. Particularly, we show through extensive experimentation that the proposed approach can reduce video freezes and freeze time with about 65% and 45% respectively, when compared to benchmarking algorithms. These results represent a major improvement for the QoE of the users watching multimedia content online

    Art Neural Networks for Remote Sensing: Vegetation Classification from Landsat TM and Terrain Data

    Full text link
    A new methodology for automatic mapping from Landsat Thematic Mapper (TM) and terrain data, based on the fuzzy ARTMAP neural network, is developed. System capabilities are tested on a challenging remote sensing classification problem, using spectral and terrain features for vegetation classification in the Cleveland National Forest. After training at the pixel level, system performance is tested at the stand level, using sites not seen during training. Results are compared to those of maximum likelihood classifiers, as well as back propagation neural networks and K Nearest Neighbor algorithms. ARTMAP dynamics are fast, stable, and scalable, overcoming common limitations of back propagation, which did not give satisfactory performance. Best results are obtained using a hybrid system based on a convex combination of fuzzy ARTMAP and maximum likelihood predictions. A prototype remote sensing example introduces each aspect of data processing and fuzzy ARTMAP classification. The example shows how the network automatically constructs a minimal number of recognition categories to meet accuracy criteria. A voting strategy improves prediction and assigns confidence estimates by training the system several times on different orderings of an input set.National Science Foundation (IRI 94-01659, SBR 93-00633); Office of Naval Research (N00014-95-l-0409, N00014-95-0657

    Disposition of youth in predicting sustainable development goals using the Neuro - fuzzy and random forest algorithms

    Get PDF
    This paper evaluates the inclination of Asian youth regarding the achievement of Sustainable Development Goals (SDGs). As the young population of a country holds the key to its future development, the authors of this study aim to provide evidence of the successful application of machine learning techniques to highlight their opinions about a sustainable future. This study’s timing is critical due to rapid developments in technology which are highlighting gaps between policy and the actual aspirations of citizens. Several studies indicate the superior predictive capabilities of neuro-fuzzy techniques. At the same time, Random Forest is gaining popularity as an advanced prediction and classification tool. This study aims to build on the previous research and compare the predictive accuracy of the adaptive neuro-fuzzy inference system (ANFIS) and Random Forest models for three categories of SGDs. The study also aims to explore possible differences of opinion regarding the importance of these categories among Asian and Serbian youth. The data used in this study were collected from 425 youth respondents in India. The results of data analysis show that ANFIS is better at predicting SDGs than the Random Forest model. The SDG preference among Asian and Serbian youth was found to be highest for the environmental pillar, followed by the social and economic pillars. This paper makes both a theoretical and a practical contribution to deepening understanding of the predictive power of the two models and to devising policies for attaining the SDGs by 2030
    corecore