23 research outputs found

    Adaptive Mining Techniques for Data Streams Using Algorithm Output Granularity Mohamed

    Get PDF
    Mining data streams is an emerging area of research given the potentially large number of business and scientific applications. A significant challenge in analyzing /mining data streams is the high data rate of the stream. In this paper, we propose a novel approach to cope with the high data rate of incoming data streams. We termed our approach "algorithm output granularity". It is a resource-aware approach that is adaptable to available memory, time constraints, and data stream rate. The approach is generic and applicable to clustering, classification and counting frequent items mining techniques. We have developed a data stream clustering algorithm based on the algorithm output granularity approach. We present this algorithm and discuss its implementation and empirical evaluation. The experiments show acceptable accuracy accompanied with run-time efficiency. They show that the proposed algorithm outperforms the K-means in terms of running time while preserving the accuracy that our algorithm can achieve

    Characterization of system status signals for multivariate time series discretization based on frequency and amplitude variation

    Get PDF
    Many fault detection methods have been proposed for monitoring the health of various industrial systems. Characterizing the monitored signals is a prerequisite for selecting an appropriate detection method. However, fault detection methods tend to be decided with user???s subjective knowledge or their familiarity with the method, rather than following a predefined selection rule. This study investigates the performance sensitivity of two detection methods, with respect to status signal characteristics of given systems: abrupt variance, characteristic indicator, discernable frequency, and discernable index. Relation between key characteristics indicators from four different real-world systems and the performance of two fault detection methods using pattern recognition are evaluated

    eavesROP: Listening for ROP Payloads in Data Streams (preliminary full version)

    Get PDF
    We consider the problem of detecting exploits based on return-oriented programming. In contrast to previous works we investigate to which extent we can detect ROP payloads by only analysing streaming data, i.e., we do not assume any modifications to the target machine, its kernel or its libraries. Neither do we attempt to execute any potentially malicious code in order to determine if it is an attack. While such a scenario has its limitations, we show that using a layered approach with a filtering mechanism together with the Fast Fourier Transform, it is possible to detect ROP payloads even in the presence of noise and assuming that the target system employs ASLR. Our approach, denoted eavesROP, thus provides a very lightweight and easily deployable mitigation against certain ROP attacks. It also provides the added merit of detecting the presence of a brute-force attack on ASLR since library base addresses are not assumed to be known by eavesROP

    Unsupervised Machine Learning and Data Mining Procedures Reveal Short Term, Climate Driven Patterns Linking Physico-Chemical Features and Zooplankton Diversity in Small Ponds

    Get PDF
    Machine Learning (ML) is an increasingly accessible discipline in computer science that develops dynamic algorithms capable of data-driven decisions and whose use in ecology is growing. Fuzzy sets are suitable descriptors of ecological communities as compared to other standard algorithms and allow the description of decisions that include elements of uncertainty and vagueness. However, fuzzy sets are scarcely applied in ecology. In this work, an unsupervised machine learning algorithm, fuzzy c-means and association rules mining were applied to assess the factors influencing the assemblage composition and distribution patterns of 12 zooplankton taxa in 24 shallow ponds in northern Italy. The fuzzy c-means algorithm was implemented to classify the ponds in terms of taxa they support, and to identify the influence of chemical and physical environmental features on the assemblage patterns. Data retrieved during 2014 and 2015 were compared, taking into account that 2014 late spring and summer air temperatures were much lower than historical records, whereas 2015 mean monthly air temperatures were much warmer than historical averages. In both years, fuzzy c-means show a strong clustering of ponds in two groups, contrasting sites characterized by different physico-chemical and biological features. Climatic anomalies, affecting the temperature regime, together with the main water supply to shallow ponds (e.g., surface runoff vs. groundwater) represent disturbance factors producing large interannual differences in the chemistry, biology and short-term dynamic of small aquatic ecosystems. Unsupervised machine learning algorithms and fuzzy sets may help in catching such apparently erratic differences

    WholePathwayScope: a comprehensive pathway-based analysis tool for high-throughput data

    Get PDF
    BACKGROUND: Analysis of High Throughput (HTP) Data such as microarray and proteomics data has provided a powerful methodology to study patterns of gene regulation at genome scale. A major unresolved problem in the post-genomic era is to assemble the large amounts of data generated into a meaningful biological context. We have developed a comprehensive software tool, WholePathwayScope (WPS), for deriving biological insights from analysis of HTP data. RESULT: WPS extracts gene lists with shared biological themes through color cue templates. WPS statistically evaluates global functional category enrichment of gene lists and pathway-level pattern enrichment of data. WPS incorporates well-known biological pathways from KEGG (Kyoto Encyclopedia of Genes and Genomes) and Biocarta, GO (Gene Ontology) terms as well as user-defined pathways or relevant gene clusters or groups, and explores gene-term relationships within the derived gene-term association networks (GTANs). WPS simultaneously compares multiple datasets within biological contexts either as pathways or as association networks. WPS also integrates Genetic Association Database and Partial MedGene Database for disease-association information. We have used this program to analyze and compare microarray and proteomics datasets derived from a variety of biological systems. Application examples demonstrated the capacity of WPS to significantly facilitate the analysis of HTP data for integrative discovery. CONCLUSION: This tool represents a pathway-based platform for discovery integration to maximize analysis power. The tool is freely available at

    Exploring the Use of Rasch Models to Construct Measures of Firms’ Profitability with Multiple Discretization Ratio-type Data

    Get PDF
    Ratio-type data plays an important role in real-world data analysis. Mass ratios have been created for different purposes, depending on time and people’s needs. Then, it is necessary to create a comprehensive score to extract information from those mass ratios when they measure the same concept from different perspectives. Therefore, this study adopts the same logic of psychometrics to systematically conduct scale development on ratio-type data under the Rasch model. However, it is first necessary to discretize the ratio-type data for use in the Rasch model. Therefore, this study also explores the effect of different data discretization methods on scale development by using financial profitability ratios as a demonstration. Results show that retaining more ratio categories can benefit Rasch modeling because it can better inform the model. The dynamic clustering algorithm, k-median is a better method for extracting characteristic patterns of the ratio-type data and preparing the data for the Rasch model. This study illustrates that there is no one-way good discretization method for ratio-type data under the Rasch model. It is more reasonable to use the traditional algorithm if each ratio has a target benchmark, whereas the k-median clustering algorithm achieves good modeling results when benchmark information is lacking

    On Offensive and Defensive Methods in Software Security

    Get PDF

    Leveraging Artificial Neural Networks for Modeling Hydrogeological Time Series

    Get PDF
    Bei der Lösung globaler Herausforderungen, wie der nachhaltigen Bewirtschaftung und Nutzung der verfĂŒgbaren Grundwasserressourcen, ist die Entwicklung neuer, effizienter und leicht ĂŒbertragbarer ModellierungsansĂ€tze von entscheidender Bedeutung. HierfĂŒr bieten sich vor allem kĂŒnstliche neuronale Netze (KNN) an, die als Verfahren des maschinellen Lernens selbststĂ€ndig relevante ZusammenhĂ€nge aus grĂ¶ĂŸeren DatensĂ€tzen geeigneter Parameter lernen und nutzen können. Die vorliegende Arbeit untersucht die Nutzung von KNN zu Modellierung und Vorhersage von hydrogeologischen Zeitreihen. In vier Studien, die den Hauptteil dieser Arbeit bilden, werden verschiedene Fragestellungen entwickelt und deren Lösbarkeit mit Hilfe von KNN demonstriert. Das Clustern von Ganglinien ist eine Möglichkeit rĂ€umliche und zeitliche Muster der Grundwasserdynamik zu erkennen. Dies ist wichtig um Aquifere zu charakterisieren, Einflussfaktoren zu identifizieren und effektive Bewirtschaftungsmethoden zu entwickeln. Aus diesen GrĂŒnden wird in der ersten Studie auf Basis von Self-Organizing Maps ein Clustering Verfahren entwickelt, mit dessen Hilfe sich in heterogenen DatensĂ€tzen von Grundwasserganglinien solche mit Ă€hnlicher Dynamik gruppieren lassen. Das Verfahren nutzt zur Charakterisierung der Grundwasserdynamik sogenannte Features, die auch die Verarbeitung von Ganglinien mit variabler DatenqualitĂ€t ermöglichen. Anhand eines Datensatzes von ca. 1800 wöchentlichen Ganglinien wird die Anwendung im Oberrheingraben in Deutschland und Frankreich erfolgreich demonstriert. Eine Analyse der Clusterergebnisse zeigt, dass sich externe Einflussfaktoren rĂ€umlich und zeitlich komplex ĂŒberlagern und eine Trennung hĂ€ufig nicht möglich ist. Dennoch sind einige Cluster eindeutig auf externe Faktoren (z.B. Grundwasserbewirtschaftung) zurĂŒckzufĂŒhren. Es folgt ein detaillierter Vergleich verschiedener KNN Modelle zur Grundwasserstandsvorhersage. Untersucht werden hierbei Nonlinear Autoregressive Models with Exogenous Inputs (NARX), Long Short-Term Memory Networks (LSTM) und Convolutional Neural Networks (CNN) sowohl jeweils fĂŒr Einzelwert- als auch Sequenzvorhersagen. Als Eingangsdaten werden nur wenige, aber dafĂŒr weithin verfĂŒgbare und leicht zu messende meteorologische Parameter verwendet, wodurch die breite Übertragbarkeit des Ansatzes gewĂ€hrleistet ist. Es zeigt sich, dass alle Modelltypen grundsĂ€tzlich gute Prognoseeigenschaften aufweisen und NARX hierbei in der Regel die prĂ€zisesten Vorhersagen treffen, dicht gefolgt von CNNs. FĂŒr die praktische Anwendbarkeit zeigen CNNs insgesamt das grĂ¶ĂŸte Potenzial, da diese eine geringere AbhĂ€ngigkeit von der pseudorandomisierten Netzinitialisierung als NARX sowie eine vielfach höhere Berechnungsgeschwindigkeit aufweisen als beide rekurrenten Alternativen. Dabei erreichen CNNs dennoch eine hohe GĂŒte und sind gleichzeitig flexibel implementierbar. CNNs bilden daher die Grundlage fĂŒr weitere untersuchte Fragestellungen. Die nachfolgende Studie untersucht die Entwicklung der GrundwasserstĂ€nde in Deutschland im Kontext des Klimawandels. HierfĂŒr werden auf Basis von CNNs und anhand von Temperatur und Niederschlag aus drei Klimaszenarien (RCP2.6, 4.5 und 8.5) die zukĂŒnftigen GrundwasserstĂ€nde an 118 ausgewĂ€hlten Messstellen in Deutschland modelliert und der direkte Einfluss des zukĂŒnftigen Klimas abgeschĂ€tzt. Wichtige sekundĂ€re Faktoren wie anthropogene EinflĂŒsse, werden jedoch nicht in die Simulationen mit einbezogen. Unter RCP8.5 (pessimistisches Szenario) sind flĂ€chenhaft und ausgeprĂ€gt fallende GrundwasserstĂ€nde zu erwarten, mit einem rĂ€umlichen Muster von stĂ€rkeren Abnahmen vor allem in Nord- und Ostdeutschland. Ebenfalls abnehmende Trends zeigen die Ergebnisse fĂŒr die optimistischeren Szenarien RCP2.6 und RCP4.5, jedoch mit vergleichsweise wenig signifikanten VerĂ€nderungen. Hier wird der positive Einfluss der verminderten Treibhausgasemissionen deutlich, jedoch werden auch noch fĂŒr das optimistischste Szenario RCP2.6 in einigen Projektionen deutschlandweit abnehmende GrundwasserstĂ€nde festgestellt. Abschließend stehen KarstquellschĂŒttungen im Fokus der Arbeit. Zur Modellierung werden zum einen die vorhandenen CNN AnsĂ€tze herangezogen, zum anderen wird ein ebenfalls auf CNNs basierender 2D-Ansatz entwickelt, der die direkte Verarbeitung von flĂ€chenhaften Rasterdaten als Inputs erlaubt. Hierdurch lĂ€sst sich vielfach das Problem der ungenĂŒgenden DatenverfĂŒgbarkeit von meteorologischen Eingabedaten im Einzugsgebiet lösen. Beide AnsĂ€tze zeigen in allen Testgebieten sehr gute Ergebnisse und ĂŒbertreffen teils die Ergebnisse bereits existierender Modelle. Der direkte Vergleich zwischen herkömmlichem und flĂ€chenhaftem Modellierungsansatz erlaubt kein abschließendes Urteil zur Überlegenheit einer der beiden AnsĂ€tze hinsichtlich der Genauigkeit der Ergebnisse. Die rĂ€umliche und zeitliche VollstĂ€ndigkeit der Eingabedaten ist jedoch ein schwerwiegender Vorteil des flĂ€chenhaften Ansatzes. Weiterhin zeigt der flĂ€chenhafte Ansatz Potenzial fĂŒr die Lokalisierung und, bei entsprechender DatenverfĂŒgbarkeit und Weiterentwicklung des Ansatzes, auch fĂŒr die Abgrenzung von Quelleinzugsgebieten im Karst
    corecore