24,738 research outputs found

    Optimasi Pembentukan Decision Tree pada Proses Klasifikasi Data dengan menggunakan Algoritma C4.5 dan BOAT

    Get PDF
    ABSTRAKSI: Data mining merupakan proses analisa data untuk menemukan suatu pola dan aturan menggunakan perangkat lunak, yang mampu menganalisa data dalam jumlah besar menjadi informasi berupa pola yang mempunyai arti bagi pendukung keputusan. Salah satu teknik dalam data mining adalah klasifikasi. Klasifikasi bertujuan membangun model yang membedakan kelas data, untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahuiDalam tugas akhir ini dibuat suatu perangkat lunak yang mengimplementasikan salah satu metode dalam klasifikasi yaitu decision tree dengan gabungan algoritma BOAT dan C4.5. BOAT (Bootstrapped Optimistic Algorithm for Tree Construction) merupakan salah satu algoritma klasifikasi yang menggunakan decision tree. BOAT menggunakan bootstrap untuk membantu mempercepat waktu proses pembentukan decision tree. Pengaturan bootstrap meliputi ukuran numbag dan bagsize yang digunakan. Bagsize merupakan ukuran sampel data yang digunakan untuk membentuk decision tree, dan numbag adalah jumlah pohon yang dibentuk dari sampel data yang ditentukan. Pohon yang dibentuk kemudian di combine hingga didapat tree akhir.Hasil pengujian menunjukkan gabungan BOATC4.5 memiliki performansi waktu lebih baik dari C4.5 untuk bagsize dan numbag yang berukuran kecil, memiliki bentuk pohon yang sama untuk data yang bebas dari noise. Untuk data yang memiliki noise dengan tipe outlier, bentuk pohon berbeda tetapi nilai akurasi BOATC4.5 tidak lebih rendah dari akurasi C4.5.Kata Kunci : data mining, decision tree, C4.5, BOAT, bagsize, numbagABSTRACT: Data mining is a data analyze process to find a pattern and rule using software, can analyze big quantities data to information in a pattern that have meanings to decision support. Classification is one of the technique of data mining. Classification purpose to build a model that can differ data class, with an aim to guess class from an unknown label object.In this final assignment, a software is made to implement a classification method known as decision tree with joining the BOAT and C4.5 algorithm. BOAT uses bootstrap to help fasten the decision tree form process. Bootstrap preferences include the numbag size and bagsize that is used. Bagsize is data sample size used to form decision tree, and numbag is the tree quantity formed from the data sample. Trees that are formed then is being combined until it gets the final tree. The testing result shows that BOATC4.5 has a better time performance than C45 with a small number of bagsize and numbag, has the same form of tree for data without noise. For data\u27s with an outlier type of noise, the tree form is different but the accuracy value of BOATC4.5 is not lower than C4.5 accuracy. Keyword: data mining, decision tree, C4.5, BOAT, bagsize, numba

    Mining data streams using option trees (revised edition, 2004)

    Get PDF
    The data stream model for data mining places harsh restrictions on a learning algorithm. A model must be induced following the briefest interrogation of the data, must use only available memory and must update itself over time within these constraints. Additionally, the model must be able to be used for data mining at any point in time. This paper describes a data stream classi_cation algorithm using an ensemble of option trees. The ensemble of trees is induced by boosting and iteratively combined into a single interpretable model. The algorithm is evaluated using benchmark datasets for accuracy against state-of-the-art algorithms that make use of the entire dataset

    Classifier of astrophysics data

    Get PDF
    Cílem této práce je implementace algoritmu pro dolování z dat pro použítí v astrofyzice. V práci jsou představeny základní pojmy a principy dolování z dat. Zejména jeho obecná definice, rozlišení mezi klasifikací a regresí a vyhodnocování přesnosti modelu. Text se zabývá převážně učením s učitelem. Blíže představeny jsou algoritmy založené na rozhodovacích stromech. Je definován rozhodovací strom jako model a uveden obecný algoritmus pro tvorbu rozhodovacích stromů z dat. Jsou diskutována různá kritéria dělení v uzlech (zejména založená na etropii), kritéria pro ukončení růstu a ořezávání stromů. Pro ilustraci jsou uvedeny vybrané algoritmy - ID3, CART, RainForest a BOAT. Na dříve uvedených informacích je založena kapitola o souborech rozhodovacích stromů. Zabývá se základními způsoby jejich kombinací (bagging a arcing) . Detailněji je popsán obecný algoritmus náhodných lesů a RandomForest TM jako příklad jeho praktické realizace. Na základě srovnání algoritmů a provedených experimentů v literatuře jsou k implementaci vybrány náhodné lesy. Implementovaný algoritmus je detailněji popsán - k dělení uzlů používá Gini entropie a průměrnou kvadratickou chybu, ignoruje chybějící hodnoty a pro kombinaci výstupů jednotlivých stromů používá většinové hlasování / průměr. Jako formát vstupních a výstupních dat je zvolena podmnožina ARFF formátu. Architektura implementace je ilustrována UML diagramy s popisujícím komentářem. Jednotlivé aspekty implementace jsou stručně popsány - implementačním jazykem je C++11, je využívána knihovna Boost (zejména chytré ukazatele, serializace, nastavení parametrů a konfigurační soubory, ...) společně s dalšími volně dostupnými knihovnami (google-glog pro logování, googletest pro jednotkové testování, ...). Grafického výstupu je dosaženo tiskem modelu náhodného lesu do XML souboru a jeho transformací skriptem do jazyka DOT. Pro oveření validity a vlastností implementace a jejího srovnání s jinými implementacemi náhodných stromů (Waffles, RF-ACE a R - balíček randomForest) jsou navrženy, popsány a provedeny exprimenty: klasifikace astronomických těles na základě barevných indexů, regrese rudého posuvu na základě barevných indexů, osm klasifikačních a pět regresních experimentů na datech z UCI repository. Průběh experimentů je plně automatizován skripty (Bash, Python a R) a je měřena doba učení modelů. Z výsledků experimentů vyplývá, že autorova implementace si vedla výborně při klasifikaci a průměrně při regresi; z časového hlediska měla problémy při datech s mnoha instancemi. Výsledkem práce je zdokumentovaná, snadno rozšiřitelná implementace náhodných lesů v jazyce C++ s grafickým znázorněním modelu, mnoha možnostmi nastavení a experimentálně ověřenou funkčností. Diskuze o dalším možném pokračování projektu se zabývá zejména odstraněním problemů s časovou náročností a přídáním nových funkcionalit.This bachelor thesis describes selection, design and implementation of a data mining algoritm for astrophysical usage.     The implementation of the random decision forests algorithm in C++ is evaluated on two astrophysical and some general experiments. Experiments are both classification and regression with time measuring. For comparison another three implementations are evaluated.     The resulting implementation shows good results mainly in classification.

    Report of the PRA carried out at Mwasonge Beach, Tanzania, October 23rd - November 3rd, 2000

    Get PDF
    This paper comprises part of the so-called "3-beaches Survey" of the LVFRP. In Tanzania, this study has developed to examine two landing sites (Mwasonge and Ihale), and to chart the progress of the newly established Beach Management Units (BMU) at each beach, comparing one BMU against the other. The over-arching objective of this survey was to develop an understanding of the context in which Mwasonge's fishery exists. The study does so by examining the community's history, culture and beliefs, various other socio-cultural factors, their resources, society and economy, wealth and the community's perceptions of wealth. Importantly, the survey examines the community's institutions and its perceptions of fishing rules and changes within the fishery. All of these facets of community life are examined with the use of participatory Rural Appraisal tools, and the images that the study generated are reproduced herein

    Spartan Daily, January 31, 2017

    Get PDF
    Volume 148, Issue 2https://scholarworks.sjsu.edu/spartan_daily_2017/1001/thumbnail.jp

    An institutional analysis of sasi laut in Maluku, Indonesia

    Get PDF
    This study provides an understanding of the extent and functioning of community based coastal resource management systems in Maluku province, Indonesia and suggests recommendations for national, provincial and village government to support, maintain and develop effective traditional and indigenous resource management institutions. The study has shown that the Sasi Laut has benefits that can be used as a basis for building local level management institutions.Fisheries, Co-management, Resource management, Indonesia,

    Discovering decision rules from numerical data streams

    Get PDF
    This paper presents a scalable learning algorithm to classify numerical, low dimensionality, high-cardinality, time-changing data streams. Our approach, named SCALLOP, provides a set of decision rules on demand which improves its simplicity and helpfulness for the user. SCALLOP updates the knowledge model every time a new example is read, adding interesting rules and removing out-of-date rules. As the model is dynamic, it maintains the tendency of data. Experimental results with synthetic data streams show a good performance with respect to running time, accuracy and simplicity of the model

    The Cord Weekly (September 6, 2001)

    Get PDF

    Highlights, January 15, 1970

    Get PDF
    corecore