192 research outputs found

    Estimating the Contamination Factor's Distribution in Unsupervised Anomaly Detection

    Full text link
    Anomaly detection methods identify examples that do not follow the expected behaviour, typically in an unsupervised fashion, by assigning real-valued anomaly scores to the examples based on various heuristics. These scores need to be transformed into actual predictions by thresholding, so that the proportion of examples marked as anomalies equals the expected proportion of anomalies, called contamination factor. Unfortunately, there are no good methods for estimating the contamination factor itself. We address this need from a Bayesian perspective, introducing a method for estimating the posterior distribution of the contamination factor of a given unlabeled dataset. We leverage on outputs of several anomaly detectors as a representation that already captures the basic notion of anomalousness and estimate the contamination using a specific mixture formulation. Empirically on 22 datasets, we show that the estimated distribution is well-calibrated and that setting the threshold using the posterior mean improves the anomaly detectors' performance over several alternative methods. All code is publicly available for full reproducibility

    Cyber Security

    Get PDF
    This open access book constitutes the refereed proceedings of the 17th International Annual Conference on Cyber Security, CNCERT 2021, held in Beijing, China, in AJuly 2021. The 14 papers presented were carefully reviewed and selected from 51 submissions. The papers are organized according to the following topical sections: ​data security; privacy protection; anomaly detection; traffic analysis; social network security; vulnerability detection; text classification

    Machine-assisted discovery of relationships in astronomy

    Get PDF
    High-volume feature-rich data sets are becoming the bread-and-butter of 21st century astronomy but present significant challenges to scientific discovery. In particular, identifying scientifically significant relationships between sets of parameters is non-trivial. Similar problems in biological and geosciences have led to the development of systems which can explore large parameter spaces and identify potentially interesting sets of associations. In this paper, we describe the application of automated discovery systems of relationships to astronomical data sets, focusing on an evolutionary programming technique and an information-theory technique. We demonstrate their use with classical astronomical relationships – the Hertzsprung–Russell diagram and the Fundamental Plane of elliptical galaxies. We also show how they work with the issue of binary classification which is relevant to the next generation of large synoptic sky surveys, such as the Large Synoptic Survey Telescope (LSST). We find that comparable results to more familiar techniques, such as decision trees, are achievable. Finally, we consider the reality of the relationships discovered and how this can be used for feature selection and extraction

    Development of crystallographic methods for phasing highly modulated macromolecular structures

    Get PDF
    [eng] Pathologies that result in highly modulated intensities in macromolecular crystal structures pose a challenge for structure solution. To address this issue two studies have been performed: a theoretical study of one of these pathologies, translational non- crystallographic symmetry (tNCS), and a practical study of paradigms of highly modulated macromolecular structures, coiled-coils. tNCS is a structural situation in which multiple, independent copies of a molecular assembly are found in similar orientations in the crystallographic asymmetric unit. Structure solution is problematic because the intensity modulations caused by tNCS cause the intensity distribution to differ from a Wilson distribution. If the tNCS is properly detected and characterized, expected intensity factors for each reflection that model the modulations observed in the data can be refined against a likelihood function to account for the statistical effects of tNCS. In this study, a curated database of 80482 protein structures from the PDB was analysed to investigate how tNCS manifests in the Patterson function. These studies informed the algorithm for detection of tNCS, which includes a method for detecting the tNCS order in any commensurate modulation. In the context of automated structure solution pipelines, the algorithm generates a ranked list of possible tNCS associations in the asymmetric unit, which can be explored to efficiently maximize the probability of structure solution. Coiled-coils are ubiquitous protein folding motifs present in a wide range of proteins that consist of two or more α-helices wrapped around each other to form a supercoil. Despite the apparent simplicity of their architecture, solution by molecular replacement is challenging due to the helical irregularities found in these domains, tendency to form fibers, large dimensions in their typically anisometric asymmetric units, low-resolution and anisotropic diffraction. In addition, the internal symmetry of the helices and their alignment in preferential directions gives rise to systematic overlap of Patterson vectors, a Patterson map that indicates tNCS is present, and intensity modulations similar to those in true tNCS. In this study, we have explored fragment phasing on a pool of 150 coiled-coils with ARCIMBOLDO_LITE, an ab initio phasing approach that combines fragment location with Phaser and density modification and autotracing with SHELXE. The results have been used to identify limits and bottlenecks in coiled-coil phasing that have been addressed in a specific mode for solving coiled-coils, allowing the solution of 95% of the test set and four previously unknown structures, and extending the resolution limit from 2.5 Å to 3.0 Å

    Improving Demand Forecasting: The Challenge of Forecasting Studies Comparability and a Novel Approach to Hierarchical Time Series Forecasting

    Get PDF
    Bedarfsprognosen sind in der Wirtschaft unerlässlich. Anhand des erwarteten Kundenbe-darfs bestimmen Firmen beispielsweise welche Produkte sie entwickeln, wie viele Fabri-ken sie bauen, wie viel Personal eingestellt wird oder wie viel Rohmaterial geordert wer-den muss. Fehleinschätzungen bei Bedarfsprognosen können schwerwiegende Auswir-kungen haben, zu Fehlentscheidungen führen, und im schlimmsten Fall den Bankrott einer Firma herbeiführen. Doch in vielen Fällen ist es komplex, den tatsächlichen Bedarf in der Zukunft zu antizipie-ren. Die Einflussfaktoren können vielfältig sein, beispielsweise makroökonomische Ent-wicklung, das Verhalten von Wettbewerbern oder technologische Entwicklungen. Selbst wenn alle Einflussfaktoren bekannt sind, sind die Zusammenhänge und Wechselwirkun-gen häufig nur schwer zu quantifizieren. Diese Dissertation trägt dazu bei, die Genauigkeit von Bedarfsprognosen zu verbessern. Im ersten Teil der Arbeit wird im Rahmen einer überfassenden Übersicht über das gesamte Spektrum der Anwendungsfelder von Bedarfsprognosen ein neuartiger Ansatz eingeführt, wie Studien zu Bedarfsprognosen systematisch verglichen werden können und am Bei-spiel von 116 aktuellen Studien angewandt. Die Vergleichbarkeit von Studien zu verbes-sern ist ein wesentlicher Beitrag zur aktuellen Forschung. Denn anders als bspw. in der Medizinforschung, gibt es für Bedarfsprognosen keine wesentlichen vergleichenden quan-titativen Meta-Studien. Der Grund dafür ist, dass empirische Studien für Bedarfsprognosen keine vereinheitlichte Beschreibung nutzen, um ihre Daten, Verfahren und Ergebnisse zu beschreiben. Wenn Studien hingegen durch systematische Beschreibung direkt miteinan-der verglichen werden können, ermöglicht das anderen Forschern besser zu analysieren, wie sich Variationen in Ansätzen auf die Prognosegüte auswirken – ohne die aufwändige Notwendigkeit, empirische Experimente erneut durchzuführen, die bereits in Studien beschrieben wurden. Diese Arbeit führt erstmals eine solche Systematik zur Beschreibung ein. Der weitere Teil dieser Arbeit behandelt Prognoseverfahren für intermittierende Zeitreihen, also Zeitreihen mit wesentlichem Anteil von Bedarfen gleich Null. Diese Art der Zeitreihen erfüllen die Anforderungen an Stetigkeit der meisten Prognoseverfahren nicht, weshalb gängige Verfahren häufig ungenügende Prognosegüte erreichen. Gleichwohl ist die Rele-vanz intermittierender Zeitreihen hoch – insbesondere Ersatzteile weisen dieses Bedarfs-muster typischerweise auf. Zunächst zeigt diese Arbeit in drei Studien auf, dass auch die getesteten Stand-der-Technik Machine Learning Ansätze bei einigen bekannten Datensät-zen keine generelle Verbesserung herbeiführen. Als wesentlichen Beitrag zur Forschung zeigt diese Arbeit im Weiteren ein neuartiges Verfahren auf: Der Similarity-based Time Series Forecasting (STSF) Ansatz nutzt ein Aggregation-Disaggregationsverfahren basie-rend auf einer selbst erzeugten Hierarchie statistischer Eigenschaften der Zeitreihen. In Zusammenhang mit dem STSF Ansatz können alle verfügbaren Prognosealgorithmen eingesetzt werden – durch die Aggregation wird die Stetigkeitsbedingung erfüllt. In Expe-rimenten an insgesamt sieben öffentlich bekannten Datensätzen und einem proprietären Datensatz zeigt die Arbeit auf, dass die Prognosegüte (gemessen anhand des Root Mean Square Error RMSE) statistisch signifikant um 1-5% im Schnitt gegenüber dem gleichen Verfahren ohne Einsatz von STSF verbessert werden kann. Somit führt das Verfahren eine wesentliche Verbesserung der Prognosegüte herbei. Zusammengefasst trägt diese Dissertation zum aktuellen Stand der Forschung durch die zuvor genannten Verfahren wesentlich bei. Das vorgeschlagene Verfahren zur Standardi-sierung empirischer Studien beschleunigt den Fortschritt der Forschung, da sie verglei-chende Studien ermöglicht. Und mit dem STSF Verfahren steht ein Ansatz bereit, der zuverlässig die Prognosegüte verbessert, und dabei flexibel mit verschiedenen Arten von Prognosealgorithmen einsetzbar ist. Nach dem Erkenntnisstand der umfassenden Literatur-recherche sind keine vergleichbaren Ansätze bislang beschrieben worden

    Cyber Security

    Get PDF
    This open access book constitutes the refereed proceedings of the 17th International Annual Conference on Cyber Security, CNCERT 2021, held in Beijing, China, in AJuly 2021. The 14 papers presented were carefully reviewed and selected from 51 submissions. The papers are organized according to the following topical sections: ​data security; privacy protection; anomaly detection; traffic analysis; social network security; vulnerability detection; text classification

    Construction Ergonomic Risk and Productivity Assessment Using Mobile Technology and Machine Learning

    Get PDF
    The construction industry has one of the lowest productivity rates of all industries. To remedy this problem, project managers tend to increase personnel\u27s workload (growing output), or assign more (often insufficiently trained) workers to certain tasks (reducing time). This, however, can expose personnel to work-related musculoskeletal disorders which if sustained over time, lead to health problems and financial loss. This Thesis presents a scientific methodology for collecting time-motion data via smartphone sensors, and analyzing the data for rigorous health and productivity assessment, thus creating new opportunities in research and development within the architecture, engineering, and construction (AEC) domain. In particular, first, a novel hypothesis is proposed for predicting features of a given body posture, followed by an equation for measuring trunk and shoulder flexions. Experimental results demonstrate that for eleven of the thirteen postures, calculated risk levels are identical to true values. Next, a machine learning-based methodology was designed and tested to calculate workers\u27 productivity as well as ergonomic risks due to overexertion. Results show that calculated productivity values are in very close agreement with true values, and all calculated risk levels are identical to actual values. The presented data collection and analysis framework has a great potential to improve existing practices in construction and other domains by overcoming challenges associated with manual observations and direct measurement techniques
    • …
    corecore