16 research outputs found

    Proactive Data Mining with Decision Trees

    Full text link

    Investigating Tobacco Usage Habits Using Data Mining Approach

    Get PDF
    What are smokers’ habits today? Do people rather enjoy cigarettes or rolling tobacco? The research made for this study is going to give us the answer on these questions. The main reason which determines smokers’ habits is their lifestyle, e.g. it depends whether they are providing enough money for cigarettes because rolling tobacco is noticeable cheaper. The research is fulfilled by participants of different years, employment status and other lifestyle habits. The research will present the smoking habits of respondents conducted through data mining. The data are processed in the Weka software with the help of a decision tree method - to be precise, the J48 algorithm. This work is licensed under a&nbsp;Creative Commons Attribution-NonCommercial 4.0 International License.</p

    Semantic aware Bayesian network model for actionable knowledge discovery in linked data

    Get PDF
    The majority of the conventional mining algorithms treat the mining process as an isolated data-driven procedure and overlook the semantic of the targeted data. As a result, the generated patterns are abundant and end users cannot act upon them seamlessly. Furthermore, interdisciplinary knowledge can not be obtained from domain-specific silo of data. The emergence of Linked Data (LD) as a new model for knowledge representation, which intertwines data with its semantics, has introduced new opportunities for data miners. Accordingly, this paper proposes an ontology-based Semantic-Aware Bayesian network (BN) model. In contrast to the existing mining algorithms, the proposed model does into transform the original format of the LD set. Therefore, it not only accommodates the semantic aspects in LD, but also caters to the need of connecting different data-sets from different domains. We evaluate the proposed model on a Bone Dysplasia dataset, Experimental results show promising performance

    Real-time data mining models for predicting length of stay in intensive care units

    Get PDF
    Nowadays the efficiency of costs and resources planning in hospitals embody a critical role in the management of these units. Length Of Stay (LOS) is a good metric when the goal is to decrease costs and to optimize resources. In Intensive Care Units (ICU) optimization assumes even a greater importance derived from the high costs associated to inpatients. This study presents two data mining approaches to predict LOS in an ICU. The first approach considered the admission variables and some other physiologic variables collected during the first 24 hours of inpatient. The second approach considered admission data and supplementary clinical data of the patient (vital signs and laboratory results) collected in real-time. The results achieved in the first approach are very poor (accuracy of 73 %). However, when the prediction is made using the data collected in real-time, the results are very interesting (sensitivity of 96.104%). The models induced in second experiment are sensitive to the patient clinical situation and can predict LOS according to the monitored variables. Models for predicting LOS at admission are not suited to the ICU particularities. Alternatively, they should be induced in real-time, using online-learning and considering the most recent patient condition when the model is induced.(undefined

    Comparison of Data Mining Classification Algorithms for Stroke Disease Prediction Using the SMOTE Upsampling Method

    Get PDF
    Stroke is a circulation disorder in the brain that can cause symptoms and signs related to the affected part of the brain and is the leading cause of death and disability in Indonesia. Everyone is at risk of experiencing a stroke, and it is important to recognize and manage risk factors. Data Mining techniques can help in the extraction and prediction of information, as well as finding hidden patterns in stroke medical data. The dataset used in this research comes from Kaggle and is imbalanced, so the SMOTE Upsampling technique is used to address this imbalance issue. The results of the study conclude that the use of SMOTE technique in the C4.5, NB, and KNN algorithms can increase precision, recall, and AUC. The C4.5 algorithm and SMOTE technique as the best performing algorithm were selected for testing new data, and the results show that the model created can predict stroke risk more accurately than the C4.5 model without SMOTE. However, it should be noted that based on the author's interview with one of the medical practitioners, the model cannot be directly used in medical practice because the observations in the medical field to determine factors related to stroke are highly complex. Thus, a new understanding revealed that predicting stroke in a practical setting is highly complex. While data mining can be used as a predictive tool in the initial stage for predictions in the general population, it is strongly recommended to undergo direct examination by doctors in a hospital to obtain more accurate and comprehensive medical evaluations

    Komparasi Algoritma Naive Bayes Dengan Support Vector Machine Berbasis Particle Swarm Optimization untuk Prediksi Kesuburan

    Get PDF
    Abstrak: Berdasarkan penelitian bahwa kesuburan pria telah mengalami penurunan, hal ini dapat disebabkan oleh beberapa faktor lingkungan dan gaya hidup, diantaranya seperti pecandu alkohol, rokok, usia, faktor genetik dan musim dapat berpengaruh pada sperma yang berkualitas. Penelitian ini menguji kemampuan antara metode algoritma Naive Bayes dengan Support Vector Machine berbasis Particle Swarm Optimization, dimana dataset yang digunakan diambil dari dataset fertilitas UCI Machine Learning Repositori. Dataset terdiri dari 100 sample dan 10 field/atribut. Hasil dari komparasi kedua metode tersebut dimana klasifikasi Support Vector Machine berbasis Particle Swarm Optimization memperoleh nilai accuracy lebih tinggi 88.00% dibandingkan dengan algoritma naive bayes dengan nilai accuracy 85.00%. &nbsp; Kata kunci: Kesuburan, Naive Bayes, Support Vector Machine, Particle Swarm Optimization. &nbsp; Abstract:&nbsp; Previous research proved that man fertility has decreased. This is caused by some environmental factors and life style. Alcohol, cigarette, age, genetic factor, and season may cause the quality of sperm. This research analyzes the capability between Naive Bayes Algorithm method and Support Vector Machine based on Particle Swarm Organisation. The dataset was taken from fertility dataset in UCI Machine Learning Repositori. It consists of 100 samples and 10 fields. The result of the both methods showed that Particle Swarm Organisation has 88.00% accuration score compared to Naive Bayes Algorithm has 85.00%. Keywords: Fertility, Support Vector Machine, Naive Bayes, Particle Swarm Optimizatio

    Modelo de random forest aplicado a ventas cruzadas en un e-commerce de telefonía móvil para la predicción de compra o no compra de productos

    Get PDF
    El objetivo de la presente investigación es realizar una propuesta para el análisis en la implementación de una técnica de machine learning para la predicción de la compra o no compra de productos a través de una web de e-commerce. Existe un auge en estos tiempos para la venta y compra de productos por internet, para muchas de las transacciones realizadas es necesario hacer previamente una identificación en el sistema web. Es por ello que la empresa “Movistar” cuenta con data de sus clientes. Esto hace posible la implementación de técnicas de machine learning para la predicción de la compra o no compra. El trabajo consiste en validar si la aplicación de Random Forest (Modelo de Árboles de Decisión) da un buen performance al momento de la realización del modelo. Previamente se realiza el tratamiento de la data y se analiza las diferentes variables. Como resultado de la implementación de Random Forest en data ficticia se obtuvo un buen performance para la predicción de resultados. Se recomienda mejorar la calidad de las variables y trabajar con data real, ya que los resultados varían de acuerdo a la base de datos. También es recomendable implementar otros modelos de clasificación.Trabajo de investigaciónCampus Lima Centr

    Identificación de biomarcadores de fibrilación auricular empleando métodos estadísticos e inteligencia artificial

    Full text link
    Trabajo fin de máster en Bioinformática y Biología ComputacionalLas arritmias cardiacas tienen un peso considerable en la morbilidad y mortalidad en las enfermedades del corazón, generando más de un cuarto de millón de muertes al año en los Estados Unidos. Las arritmias pueden ocurrir durante la edad temprana, o pueden surgir más adelante debido a alguna enfermedad o el envejecimiento. La prueba más común utilizada para diagnosticar una arritmia es un electrocardiograma (ECG), el cual registra las diferencias de potencial eléctrico generadas por el corazón. Ciertas alteraciones en el patrón normal de la actividad eléctrica del corazón son indicativas de patologías cardíacas. Entre los distintos tipos de arritmias cardíacas la Fibrilación Auricular (FA) es la más común, y está asociada al envejecimiento. En el presente proyecto se analizaron más de 320.000 electrocardiogramas (ECGs) registrados en la base de datos del Hospital Universitario de La Princesa desde el año 2007 en formato XML, con el objeto de determinar biomarcadores y la generación de modelos predictivos de FA a partir de ECGs normales. Inicialmente se procedió con el estudio de la estructura de los archivos XML, y la identificación de la información de interés y sensible que pudiera identificar al paciente. Mediante un script en Bash la base de datos fue anonimizada, eliminando toda la información que pudiera identificar a los pacientes y generando nuevos números de identificación en una base de datos alterna. Posteriormente, con herramientas de análisis masivo se identificó, de forma anonimizada, aquellos pacientes que al menos tienen un ECG en FA y que a su vez presenten ECGs previos en Ritmo Sinusal (RS) normal (grupo de casos), al igual que pacientes que solo tienen registrados ECGs en RS (grupo control). El análisis masivo de más de 444 variables de ECGs en RS entre el grupo control y casos se llevó acabo por sexo y edad (de 40 a 49, 50 a 59, 60 a 69, 70 a 79, más de 80 años y el conjunto completo), y tomando en cuenta el tiempo entre ECGs. Una vez establecidos los grupos de estudio, se realizó un análisis estadístico para determinar si estos grupos presentaban diferencias significativas con respecto la edad, sexo y distancia entre ECGs, y se ajustaron para eliminar dichas diferencias. Seguido de esto, se llevó a cabo un análisis univariante para identificar de entre las más de 444 variables aquellas que presentan diferencias significativas entre casos y controles, y seguidamente con estas variables se construyeron modelos predictivos empleando los algoritmos de “Extreme Gradient Boosting” (XGBoost) y “Support Vector Machines” (SVM). Los resultados de exactitud obtenidos de estos ensayos se encuentran alrededor del 60%. Con el objeto de mejorar los resultados se empleó el método “Sequential Forward Floating Selection” (SFFS) o Selección secuencial flotante hacia adelante, el cual es otro método para la selección del conjunto de variables relevantes, obteniendo una mejoría en la exactitud del alrededor del 2

    Machine Learning in Image Analysis and Pattern Recognition

    Get PDF
    This book is to chart the progress in applying machine learning, including deep learning, to a broad range of image analysis and pattern recognition problems and applications. In this book, we have assembled original research articles making unique contributions to the theory, methodology and applications of machine learning in image analysis and pattern recognition
    corecore