192 research outputs found
Statistical analysis of high-order Markov dependencies
The paper deals with parsimonious models of integer valued time series. Such models are special cases of high-order Markov chain with a small number of parameters. Two new parsimonious models are presented. The first is Markov chain of order s with r partial connections, and the second model is called Markov chain of conditional order. Theoretical results on probabilistic properties and statistical inferences for these models are given
How Noisy Data Affects Geometric Semantic Genetic Programming
Noise is a consequence of acquiring and pre-processing data from the
environment, and shows fluctuations from different sources---e.g., from
sensors, signal processing technology or even human error. As a machine
learning technique, Genetic Programming (GP) is not immune to this problem,
which the field has frequently addressed. Recently, Geometric Semantic Genetic
Programming (GSGP), a semantic-aware branch of GP, has shown robustness and
high generalization capability. Researchers believe these characteristics may
be associated with a lower sensibility to noisy data. However, there is no
systematic study on this matter. This paper performs a deep analysis of the
GSGP performance over the presence of noise. Using 15 synthetic datasets where
noise can be controlled, we added different ratios of noise to the data and
compared the results obtained with those of a canonical GP. The results show
that, as we increase the percentage of noisy instances, the generalization
performance degradation is more pronounced in GSGP than GP. However, in
general, GSGP is more robust to noise than GP in the presence of up to 10% of
noise, and presents no statistical difference for values higher than that in
the test bed.Comment: 8 pages, In proceedings of Genetic and Evolutionary Computation
Conference (GECCO 2017), Berlin, German
МЕТОДЫ АНАЛИЗА ЭФФЕКТИВНОСТИ ПОСЛЕДОВАТЕЛЬНЫХ СТАТИСТИЧЕСКИХ ТЕСТОВ
Sequential statistical tests for simple hypotheses on parameters of probability distributions of independent observations, as well as of Markov chains are considered in the article. Methods for analysis of performance characteristics (I and II type error probabilities, conditional expected sample sizes) of sequential statistical tests are constructed both on the basis of the approximations of test statistics and on the basis of absorbing Markov chain theory. The proposed methods allow assessing the performance characteristics of sequential statistical tests not only for the hypothetical model of data, but also under deviations from this model, which can be used for robustness analysis of sequential tests. В работе исследуются последовательные статистические тесты проверки простых гипотез о значениях параметров распределений вероятностей независимых наблюдений, а также наблюдений, образующих цепь Маркова. Предложены методы анализа характеристик эффективности (вероятностей ошибок первого и второго рода, а также среднего числа наблюдений) последовательных статистических тестов, основанные на приближении тестовой статистики и использующие теорию поглощающих цепей Маркова. Предложенные методы позволяют вычислять характеристики эффективности последовательных статистических тестов не только для гипотетической модели данных, но и при отклонениях от этой модели, что может быть использовано при анализе робастности последовательных тестов.
Нейросетевые модели биномиальных временных рядов в задачах анализа данных
This article is devoted to constructing neural network-based models for discrete-valued time series and their use in computer data analysis. A new family of binomial time series based on neural networks is presented, which makes it possible to approximate the arbitrary-type stochastic dependence in time series. Ergodicity conditions and an equivalence relation for these models are determined. Consistent statistical estimators for model parameters and algorithms for computer data analysis (including forecasting and pattern recognition) are developed.В данном сообщении рассматриваются задачи построения нейросетевых моделей дискретных временных рядов и использования их для компьютерного анализа данных. Представлено новое семейство нейросетевых моделей дискретных временных рядов, позволяющих аппроксимировать любой тип стохастической зависимости состояний временного ряда от его предыстории. Установлены условия эргодичности и отношение эквивалентности для этих моделей. Построены состоятельные статистические оценки параметров моделей и алгоритмы компьютерного анализа данных с использованием нейросетевых моделей: алгоритмы оценивания параметров, прогнозирования и распознавания образов
Statistical Diagnostics of Metastatic Involvement of Regional Lymph Nodes
The method of statistical classification with indicating patients that require more detailed diagnostics is proposed and analysed
СТАТИСТИЧЕСКИЕ ОЦЕНКИ ЭНТРОПИИ РЕНЬИ И ТСАЛЛИСА И ИХ ИСПОЛЬЗОВАНИЕ ДЛЯ ПРОВЕРКИ ГИПОТЕЗ О «ЧИСТОЙ СЛУЧАЙНОСТИ»
An approach to the construction of consistent statistical estimators for Renyi and Tsallis entropy is considered. The asymptotic probability distribution of constructed point estimators is proved, and the interval estimators are constructed. On the basis of interval estimators the decision rule for the statistical testing of the hypotheses of “pure randomness” of the observed discrete sequence is developed. The results of computer experiments are presented. Предложен подход к построению состоятельных статистических оценок функционалов энтропии Реньи и Тсаллиса. Найдено асимптотическое распределение вероятностей построенных точечных оценок, построены интервальные оценки. На основе интервальных оценок разработано решающее правило для статистической проверки гипотез о «чистой случайности» наблюдаемой дискретной последовательности. Представлены результаты компьютерных экспериментов.
ИНФОРМАТИВНЫЕ ПРИЗНАКИ ДЛЯ СТАТИСТИЧЕСКОГО РАСПОЗНАВАНИЯ КРИПТОГРАФИЧЕСКИХ ГЕНЕРАТОРОВ
An approach to developing informative descriptors for solving the problem of statistical recognition of cryptographic generators is proposed. The descriptors developed by this approach are given. Theoretical results are illustrated by the computer experiments.Разрабатывается общий подход к построению информативных признаков для решения зада-чи статистического распознавания криптографических генераторов. Описываются признаки, по-строенные в соответствии с этим подходом. Приводятся результаты компьютерных эксперимен-тов применения построенных информативных признаков для статистического распознавания гене-раторов
О ВЛИЯНИИ ИСКАЖЕНИЙ В L1И C-МЕТРИКАХ НА ВЕРОЯТНОСТИ ОШИБОК ДЛЯ ПОСЛЕДОВАТЕЛЬНОГО КРИТЕРИЯ ОТНОШЕНИЯ ВЕРОЯТНОСТЕЙ
The sequential probability ratio test (SPRT) is considered, when the actual probability distribution of observations is unknown and differs from the theoretical one, but belongs to its e-neighborhood in the L1or C-metric. The least favorable distribution (that maximizes the type I error probability of the SPRT) of observations is constructed for each metric and each e fixed in advance.Рассматривается последовательный критерий отношения вероятностей (ПКОВ) проверки двух простых гипотез в случае, когда фактическая плотность распределения вероятностей наблюдений отличается от гипотетической, но принадлежит ее е-окрестности в Llили С-метрике. Для заданного значения e построены «наименее благоприятные» плотности распределения вероятностей наблюдений, которые максимизируют вероятности ошибочных решений ПКОВ
АСИМПТОТИЧЕСКИЙ АНАЛИЗ ОЦЕНОК МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ПАРАМЕТРОВ БИНОМИАЛЬНОЙ УСЛОВНО АВТОРЕГРЕССИОННОЙ МОДЕЛИ ПРОСТРАНСТВЕННО-ВРЕМЕННЫХ ДАННЫХ
Asymptotic properties of the maximum likelihood estimators of parameters for a binomial conditionally autoregressive model of spatio-temporal data are studied. The asymptotic normality is proved and the asymptotic covariance matrix is found for the estimators. The results of computer experiments are presented.Исследованы асимптотические свойства оценок максимального правдоподобия параметров биномиальной условно авторегрессионной модели пространственно-временных данных. Доказана асимптотическая нормальность и найдена асимптотическая ковариационная матрица построенных оценок. Представлены результаты компьютерных экспериментов
- …