101 research outputs found

    How Noisy Data Affects Geometric Semantic Genetic Programming

    Full text link
    Noise is a consequence of acquiring and pre-processing data from the environment, and shows fluctuations from different sources---e.g., from sensors, signal processing technology or even human error. As a machine learning technique, Genetic Programming (GP) is not immune to this problem, which the field has frequently addressed. Recently, Geometric Semantic Genetic Programming (GSGP), a semantic-aware branch of GP, has shown robustness and high generalization capability. Researchers believe these characteristics may be associated with a lower sensibility to noisy data. However, there is no systematic study on this matter. This paper performs a deep analysis of the GSGP performance over the presence of noise. Using 15 synthetic datasets where noise can be controlled, we added different ratios of noise to the data and compared the results obtained with those of a canonical GP. The results show that, as we increase the percentage of noisy instances, the generalization performance degradation is more pronounced in GSGP than GP. However, in general, GSGP is more robust to noise than GP in the presence of up to 10% of noise, and presents no statistical difference for values higher than that in the test bed.Comment: 8 pages, In proceedings of Genetic and Evolutionary Computation Conference (GECCO 2017), Berlin, German


    Get PDF
    Sequential statistical tests for simple hypotheses on parameters of probability distributions of independent observations, as well as of Markov chains are considered in the article. Methods for analysis of performance characteristics (I and II type error probabilities, conditional expected sample sizes) of sequential statistical tests are constructed both on the basis of the approximations of test statistics and on the basis of absorbing Markov chain theory. The proposed methods allow assessing the performance characteristics of sequential statistical tests not only for the hypothetical model of data, but also under deviations from this model, which can be used for robustness analysis of sequential tests. В работе исследуются последовательные статистические тесты проверки простых гипотез о значениях параметров распределений вероятностей независимых наблюдений, а также наблюдений, образующих цепь Маркова. Предложены методы анализа характеристик эффективности (вероятностей ошибок первого и второго рода, а также среднего числа наблюдений) последовательных статистических тестов, основанные на приближении тестовой статистики и использующие теорию поглощающих цепей Маркова. Предложенные методы позволяют вычислять характеристики эффективности последовательных статистических тестов не только для гипотетической модели данных, но и при отклонениях от этой модели, что может быть использовано при анализе робастности последовательных тестов.

    Statistical Diagnostics of Metastatic Involvement of Regional Lymph Nodes

    Get PDF
    The method of statistical classification with indicating patients that require more detailed diagnostics is proposed and analysed


    Get PDF
    The sequential probability ratio test (SPRT) is considered, when the actual probability distribution of observations is unknown and differs from the theoretical one, but belongs to its e-neighborhood in the  L1or C-metric. The least favorable distribution (that maximizes the type I error probability of the SPRT) of observations is constructed for each metric and each e fixed in advance.Рассматривается последовательный критерий отношения вероятностей (ПКОВ) проверки двух простых гипотез в случае, когда фактическая плотность распределения вероятностей наблюдений отличается от гипотетической, но принадлежит ее е-окрестности в Llили С-метрике. Для заданного значения e построены «наименее благоприятные» плотности распределения вероятностей наблюдений, которые максимизируют вероятности ошибочных решений ПКОВ


    Get PDF
    The problem of sequential testing of simple hypotheses for time series with a trend is considered in case of missing observations. The sequential test is constructed and its performance characteristics are analysed. Numerical results of experiments are given.Рассматривается задача последовательной проверки простых гипотез для временных рядов с трендом в случае пропуска наблюдений. Построен последовательный тест, исследованы характеристики его эффективности. Приведены результаты вычислительных экспериментов


    Get PDF
    In this article the problem of a sequential test for the model of independent non-identically distributed observations is considered. Based on recursive calculation a new numerical approach to approximate test characteristics for a sequential probability ratio test (SPRT) and a truncated SPRT (TSPRT) is constructed. The problem of robustness evaluation is also studied when the contamination is presented by the distortion of the distributions of all increments of the log-likelihood ratio statistics. The two-side truncated functions are proposed to be used for constructing the robustified SPRT. An algorithm to choose the thresholds of these truncated functions is indicated. The results are applied for a sequential test on parameters of time series with trend. Some kinds of the contaminated models of time series with trend are used to study the robustness of the truncated SPRT. Numerical examples confirming the theoretical results mentioned above are given.Рассмотрена проблема последовательного теста для модели независимых неодинаково распределенных наблюдений. На основе рекурсивного расчета построен новый численный подход для аппроксимации тестовых характеристик последовательного критерия отношения вероятностей (ПКОВ) и усеченного ПКОВ (УПКОВ). Исследована проблема анализа робастности, когда «засорение» представлено искажением распределений всех приращений статистики логарифмического отношения правдоподобия. Предложено использование двухсторонних усеченных функций для построения робастного ПКОВ. Указан алгоритм для выбора порогов этих усеченных функций. Результаты применены для последовательной проверки гипотез о параметрах временных рядов с трендом. Для некоторых моделей «засорения» временных рядов с трендом исследована робастность усеченного ПКОВ. Проведенные в работе численные эксперименты подтверждают теоретические выводы


    Full text link
    В настоящее время, с возросшей популярностью возобновляемых источников энергии, исследуются различные способы использования тепловых насосов в ряде стран. В статье рассмотрены различные статистические данные использования тепловых насосов в мире.Currently, with the increasing popularity of renewable energy sources, various ways of using heat pumps in several countries are being investigated. The article discusses various statistics on the use of heat pumps in the world

    Дискретные временные ряды на основе экспоненциального семейства с многомерным параметром и их вероятностно-статистический анализ

    Get PDF
    We propose herein a new parsimonious Markov model for a discrete-valued time series with conditional probability distributions of observations lying in the exponential family with the multidimensional parameter. A family of explicit consistent asymptotically normal statistical estimators is constructed for the parameters of the proposed model for increasing length of observed time series, and asymptotically effective estimator is found within this constructed family. The obtained results can be used for robust statistical analysis of discrete-valued time series,and for statistical analysis of discrete-valued spatio-temporal data and random fields.Предложена новая малопараметрическая модель дискретного временного ряда на основе экспоненциального семейства дискретных распределений вероятностей с многомерным параметром. Для параметров предложенной модели строится семейство состоятельных асимптотически нормальных статистических оценок явного вида, в котором найдена асимптотически эффективная оценка, достигающая границы Крамера – Рао при растущей длительности наблюдения временного ряда. Полученные результаты могут быть использованы для робастного статистического анализа дискретных временных рядов, статистического анализа дискретных пространственно-временных данных и случайных полей