18 research outputs found

    An Attempt to Analyse Baarda’s Iterative Data Snooping Procedure based on Monte Carlo Simulation

    Get PDF
    William Sealy Gosset, otherwise known as “Student”, Fisher's disciple, was one of the pioneers in the development of modern statistical method and its application to the design and analysis of experiments. Although there were no computers in his time, he discovered the form of the “t distribution” by a combination of mathematical and empirical work with random numbers. This is now known as an early application of the Monte Carlo simulation. Today with the fast computers and large data storage systems, the probabilities distribution can be estimated using computerized simulation. Here, we use Monte Carlo simulation to investigate the efficiency of the Baarda’s iterative data snooping procedure as test statistic for outlier identification in the Gauss-Markov model. We highlight that the iterative data snooping procedure can identify more observations than real number of outliers simulated. It has a deserved attention in this work. The available probability of over-identification allows enhancing the probability of type III error as well as probably the outlier identifiability. With this approach, considering the analysed network, in general, the significance level of 0.001 was the best scenario to not make mistake of excluding wrong observation. Thus, the data snooping procedure was more realistic when the over-identifications case is considered in the simulation. In the end, we concluded that for GNSS network that the iterative data snooping procedure based on Monte Carlo can locate an outlier in the order of magnitude 4.5σ with high success rate

    INTRODUÇÃO E APLICAÇÃO DA DILUIÇÃO DA PRECISÃO DAS AMBIGUIDADES GNSS – ADOP

    Get PDF
    Diluição da precisão das ambiguidades GNSS, conhecida como ADOP (AmbiguityDilution of Precision), é o tópico principal deste artigo. Basicamente, o ADOP édefinido como uma medida escalar para avaliar a precisão das ambiguidades reais(float). Assim, entre as inúmeras possibilidades, a ADOP pode auxiliar na previsãodo comportamento de uma linha base ou de uma rede de receptores GNSS no quediz respeito ao problema de solução das ambiguidades envolvidas, quer seja emtempo real (instantânea), ou no modo pós-processado. A vantagem de utilizar agrandeza ADOP advém da possibilidade de extrair uma expressão analíticasimplificada, considerando os diversos fatores que afetam a resolução dasambiguidades. Além disso, essa grandeza traz informação a respeito da taxa desucesso de resolução das ambiguidades. As expressões utilizadas nesse artigo levamem consideração alguns fatores, como por exemplo, informações a priori daprecisão das medidas de fase da onda portadora e pseudodistância, número deestações e satélites, número de frequências disponíveis e o comportamento daatmosfera, considerando tanto a troposfera como a ionosfera. A partir dessasinformações, diversos cenários são factíveis de serem estabelecidos visando analisaro impacto de cada informação particular na resolução das ambiguidades. As análisesforam realizadas no contexto de algumas estações da rede GNSS-SP, uma redeGNSS estabelecida no Estado de São Paulo

    Global Optimization of Redescending Robust Estimators

    Full text link
    [EN] Robust estimation has proved to be a valuable alternative to the least squares estimator for the cases where the dataset is contaminated with outliers. Many robust estimators have been designed to be minimally affected by the outlying observations and produce a good fit for the majority of the data. Among them, the redescending estimators have demonstrated the best estimation capabilities. It is little known, however, that the success of a robust estimation method depends not only on the robust estimator used but also on the way the estimator is computed. In the present paper, we show that for complicated cases, the predominant method of computing the robust estimator by means of an iteratively reweighted least squares scheme may result in a local optimum of significantly lower quality than the global optimum attainable by means of a global optimization method. Further, the sequential use of the proposed global robust estimation proves to successfully solve the problem of M-split estimation, that is, the determination of parameters of different functional models implicit in the data.Baselga Moreno, S.; Klein, I.; Sampaio Suraci, S.; Castro De Oliveira, L.; Tomio Matsuoka, M.; Francisco Rofatto, V. (2021). Global Optimization of Redescending Robust Estimators. Mathematical Problems in Engineering. 2021:1-13. https://doi.org/10.1155/2021/9929892S113202

    An attempt to analyse Iterative Data Snooping and L1-norm based on Monte Carlo simulation in the context of leveling networks

    Full text link
    [EN] The goal of this paper is to evaluate the outlier identification performance of iterative Data Snooping (IDS) and L-1-norm in levelling networks by considering the redundancy of the network, number and size of the outliers. For this purpose, several Monte-Carlo experiments were conducted into three different levelling networks configurations. In addition, a new way to compare the results of IDS based on Least Squares (LS) residuals and robust estimators such as the L-1-norm has also been developed and presented. From the perspective of analysis only according to the success rate, it is shown that L-1-norm performs better than IDS for the case of networks with low redundancy ((r) over bar < 0.5), especially for cases where more than one outlier is present in the dataset. In the relationship between false positive rate and outlier identification success rate, however, IDS performs better than L-1-norm, independently of the levelling network configuration, number and size of outliers.Klein, I.; Suraci, SS.; De Oliveira, LC.; Rofatto, VF.; Matsuoka, MT.; Baselga Moreno, S. (2022). An attempt to analyse Iterative Data Snooping and L1-norm based on Monte Carlo simulation in the context of leveling networks. Survey Review. 54(382):70-78. https://doi.org/10.1080/00396265.2021.187833870785438

    Performance comparison of least squares, iterative and global L1 Norm minimization and exhaustive search methods for outlier detection in leveling networks

    Full text link
    [EN] Different approaches have been proposed to determine the possible outliers existing in a dataset. The most widely used consists in the application of the data snooping test over the least squares adjustment results. This strategy is very likely to succeed for the case of zero or one outliers but, contrary to what is often assumed, the same is not valid for the multiple outlier case, even in its iterative application scheme. Robust estimation, computed by iteratively reweighted least squares or a global optimization method, is other alternative approach which often produces good results in the presence of outliers, as is the case of exhaustive search methods that explore elimination of every possible set of observations. General statements, having universal validity, about the best way to compute a geodetic network with multiple outliers are impossible to be given due to the many different factors involved (type of network, number and size of possible errors, available computational force, etc.). However, we see in this paper that some conclusions can be drawn for the case of a leveling network, which has a certain geometrical simplicity compared with planimetric or three-dimensional networks though a usually high number of unknowns and relatively low redundancy. Among other results, we experience the occasional failure in the iterative application of the data snooping test, the relatively successful results obtained by both methods computing the robust estimator, which perform equivalently in this case, and the successful application of the exhaustive search method, for different cases that become increasingly intractable as the number of outliers approaches half the number of degrees of freedom of the network.Baselga Moreno, S.; Klein, I.; Suraci, SS.; Castro De Oliveira, L.; Matsuoka, MT.; Rofatto, VF. (2020). Performance comparison of least squares, iterative and global L1 Norm minimization and exhaustive search methods for outlier detection in leveling networks. Acta Geodynamica et Geomaterialia. 17(4):425-438. https://doi.org/10.13168/AGG.2020.003142543817

    Uma extensão à teoria da confiabilidade em Geodésia

    Get PDF
    Há mais de meio século, a teoria da confiabilidade introduzida por Baarda (1968) tem sido usada como uma prática padrão para o controle de qualidade em geodésia. Embora atenda o rigor matemático e os pressupostos da probabilidade, a teoria foi originalmente desenvolvida para um Data-Snooping que considera uma específica observação como sendo um outlier. Na prática, não sabemos qual observação é um outlier. Se o objetivo do procedimento Data-Snooping é testar cada observação individual quanto à presença de um outlier, então uma hipótese alternativa mais apropriada seria: “Existe pelo menos um outlier nos dados observados”. Agora, estamos interessados em responder: “Onde?”. A resposta para tal pergunta recai sobre um problema de localizar dentre as hipóteses alternativas aquela que levou à rejeição da hipótese nula, ou seja, estamos interessados em identificar o outlier. Esse problema é conhecido como múltiplas hipóteses alternativas. Embora avanços tenham ocorrido ao longo desse período, as teorias apresentadas até o momento consideram apenas uma única rodada do Data-Snooping, sem qualquer diagnóstico subsequente, como a remoção do outlier. Na prática, entretanto, o Data-Snooping é aplicado de forma iterativa: após a identificação e a eliminação de um possível outlier, os dados são reprocessados e a identificação é reiniciada. Este procedimento é denominado de Data-Snooping Iterativo (DSI). O DSI é, portanto, um caso que envolve não somente múltiplas hipóteses alternativas, mas também múltiplas rodadas de estimação, teste e adaptação. Estimar os níveis de probabilidade associado com DSI é praticamente impossível por aqueles métodos analíticos usualmente empregados em procedimentos mais simples, por exemplo, o teste global do modelo e Data-Snooping de uma única hipótese alternativa. Por essa razão, uma rigorosa e completa teoria da confiabilidade não estava disponível até o momento. Embora grandes avanços tenham ocorrido em meados da década de 1970, como os computadores baseados em microprocessadores, Baarda tinha uma desvantagem: a tecnologia de sua época era insuficiente para que se utilizassem técnicas computacionais inteligentes. Hoje o cenário computacional é completamente diferente da época da teoria da confiabilidade de Baarda. Aqui, seguindo a tendência atual da ciência moderna, usamos o método de Monte Carlo e estendemos a teoria da confiabilidade para o DSI. Neste trabalho, demonstramos que a estimação depende do teste e da adaptação e, portanto, o DSI é, na verdade, um estimador. Até o presente momento, a escolha do número de simulações de Monte Carlo tem sido avaliada somente em função da precisão. Assim, levantou-se uma questão: como podemos encontrar um número ótimo de experimentos Monte Carlo em termos de acurácia? Aqui, usamos eventos com probabilidades conhecidas para avaliar a acurácia do Método de Monte Carlo. Os resultados mostraram que, dentre os números de experimentos testados, m = 200, 000 forneceu suficiente precisão numérica, com erro relativo menor que 0.1%. A estatística de teste associada ao DSI é o valor extremo dos resíduos dos mínimos quadrados normalizados. É bem conhecido na literatura que valores críticos desse teste não podem ser derivados de distribuições conhecidas, mas devem ser calculados numericamente por meio do método de Monte Carlo. Este trabalho fornece os primeiros resultados sobre o valor crítico baseado em Monte Carlo inserido em diferentes cenários de correlação entre as estatísticas de teste. Testamos se o aumento do nível de significância conjunto, ou redução do valor crítico, melhora a identificabilidade do outlier. Os resultados mostraram que quanto menor o valor crítico, ou maior o nível de significância conjunto, maior é a probabilidade de correta detecção, e menor é o MDB. Porém, essa relação não é válida em termos de identificação. Observamos que, quando o efeito de todas as observações na taxa de falsa exclusão (Erro Tipo III) diminui, é possível encontrar o menor outlier identificável (MIB). A razão disso é que o efeito da correlação entre os resíduos torna-se insignificante para uma certa magnitude de outlier, o que aumenta a probabilidade da correta identificação.For more than half a century, the reliability theory introduced by Baarda (1968) has been used as a standard practice for quality control in geodesy and surveying. Although the theory meets mathematical rigor and probability assumptions, it was originally developed for a Data-Snooping which assumes a specific observation as a suspect outlier. In other words, only one single alternative hypothesis is in play. Actually, we do not know which observation is an outlier. Since the Data-Snooping consists of screening each individual measurement for an outlier, a more appropriate alternative hypothesis would be: “There is at least one outlier in the observations”. Now, we are interested to answer: “Where?”. The answer to this question lies in a problem of locating among the alternative hypotheses the one that led to the rejection of the null hypothesis. Therefore, we are interested in identifying the outlier. Although advances have occurred over that period, the theories presented so far consider only one single round of the Data-Snooping procedure, without any subsequent diagnosis, such as removing the outlier. In fact, however, Data-Snooping is applied iteratively: after identification and elimination of the outlier, the model is reprocessed, and outlier identification is restarted. This procedure of iterative outlier elimination is known as Iterative Data-Snooping (IDS). Computing the probability levels associated with IDS is virtually impossible to those analytical methods usually employed in conventional tests, such as, overall model test and Data-Snooping of only one single alternative hypothesis. Because of this, a rigorous and complete reliability theory was not yet available. Although major advances occurred in the mid-1970s, such as microprocessorbased computers, Baarda had a disadvantage: the technology of his time was insufficient to use intelligent computational techniques. Today, the computational scenario is completely different from the time of Baarda’s theory of reliability. Here, following the current trend of modern science, we can use intelligent computing and extend the reliability theory when the DSI is in play. We show that the estimation depends on the test and the adaptation and, therefore, the IDS is, in fact, an estimator. Until the present, no study has been conducted to evaluate empirically the accuracy of the Monte Carlo for quality control purposes in geodesy. Generally, only the degree of dispersion of the Monte Carlo is considered. Thus, an issue remains: how can we find the optimal number of Monte Carlo experiments for quality control purpose? Here, we use an exact theoretical reference probabilities to answer this question. We find that that the number of experiments m = 200, 000 can provide consistent results with sufficient numerical precision for outlier identification, with a relative error less than 0.1%. The test statistic associated with IDS is the extreme normalised least-squares residual. It is well-known in the literature that critical values (quantile values) of such a test statistic cannot be derived from well-known test distributions but must be computed numerically by means of Monte Carlo. This paper provides the first results on the Monte Carlo-based critical value inserted into different scenarios of correlation between outlier statistics. We also tested whether increasing the level of the family-wise error rate, or reducing the critical values, improves the identifiability of the outlier. The results showed that the lower critical value, or the higher the family-wise error rate, the larger the probability of correct detection, and the smaller the MDB. However, this relationship is not valid in terms of identification. We also highlight that an outlier becomes identifiable when the contributions of the observations to the wrong exclusion rate (Type III error) decline simultaneously. In this case, we verify that the effect of the correlation between outlier statistics on the wrong exclusion rate becomes insignificant for a certain outlier magnitude, which increases the probability of identification

    ZTD em tempo quase real via Estações GNSS Terrestres: estratégia de processamento para o GIPSY-OASIS II e combinação das séries temporais

    No full text
    One of meteorological products obtained from the high-precision GNSS data processing is the zenithal tropospheric delay, which can be used to quantify the integrated water vapor, an important measurement for atmospheric sciences. Combination of tropospheric delay time series aims to generate a single solution, more reliable than each individual series. This dissertation proposes a combination in near real time of tropospheric delay parameters based on multiple solutions for a specific time. Under these circumstances, it was decided a combination derived by the least squares method and the quality control process based on detection, identification and adaptation. The zenithal tropospheric delay was derived by GIPSY-OASIS II and GAMIT GNSS data processing software systems, each one using different processing methods and strategies...Um dos produtos meteorológicos advindos do processamento de alta precisão de dados GNSS é a estimativa do atraso zenital troposférico o qual pode ser utilizado para quantificar o vapor d’água integrado na coluna atmosférica, importante medida para as ciências atmosféricas. A combinação de séries temporais do atraso troposférico visa gerar uma solução única, mais confiável se comparada com as soluções individuais estimadas via processamento de dados GNSS. Esta dissertação propõe uma combinação em tempo quase real do atraso zenital troposférico baseada em múltiplas soluções para um tempo específico. Nessas circunstâncias, optou-se por uma combinação obtida por meio do método dos mínimos quadrados, com controle de qualidade realizado pelo processo detecção, identificação e adaptação. As estimativas do atraso zenital troposférico foram obtidas por meio dos softwares de processamento de dados GNSS, GAMIT e GIPSY-OASIS II (GOA-II), os quais utilizam diferentes métodos e estratégias de processamento..

    Avaliação da utilização de estações virtuais de referência para o georreferenciamento de imóveis rurais

    No full text
    Este trabalho investiga a possibilidade de se empregar estações virtuais de referência (VRS) no georreferenciamento de imóveis rurais. Para tanto, foi realizada uma simulação de um georreferenciamento em uma propriedade rural da cidade de Monte Carmelo/MG. O rastreio dos vértices de limite da área foi realizado por meio do método relativo estático. As estações virtuais de referência foram então geradas para a posição das bases rastreadas em campo, o que permitiu uma série de considerações e experimentos. Foram utilizadas algumas técnicas para avaliar a coordenada da estação virtual no Posicionamento por Ponto Preciso, tomando como parâmetro de referência as coordenadas rastreadas com receptores reais. Na sequência, avalia-se a precisão posicional obtida no posicionamento relativo estático baseado em VRS de acordo com o que determina a 3ª Edição da Norma Técnica para o Georreferenciamento de Imóveis Rurais. Os resultados da avaliação da coordenada da VRS mostraram um erro planimétrico médio resultante de 17,1 cm com desvio padrão de ±0,2 cm para o caso da VRS processada com informações de dupla frequência, resultado considerado satisfatório

    Introdução e aplicação da diluição da precisão das ambiguidades GNSS - ADOP

    Get PDF
    The main topic of this paper is the Ambiguity Dilution of Precision known as ADOP. Basically, ADOP is defined as a diagnostic measure for assessing the precision of the float scalar ambiguities. Among the several possibilities, the ADOP can provide help in predicting the behavior of a baseline or a network of GNSS receivers, concerning the problem of ambiguity resolution, either in real-time (instantaneous) or in the post-processing mode. The main advantage of using ADOP is possibility of the extraction of a closed analytical expression, considering various factors that affect the ambiguity resolution. Furthermore, the ADOP is related to the success rate of ambiguity resolution. The expressions here used, takes into account several factors, for example, a priori information of the measurement precision of GNSS carrier phase and pseudorange, the number of stations and satellites, the number of available frequencies and the behavior of the atmosphere (ionosphere and troposphere). Several scenarios were established so as to analyze the impact of each factor in ambiguities resolution, within the context of some stations of the São Paulo GNSS network (GNSS-SP).Diluição da precisão das ambiguidades GNSS, conhecida como ADOP (Ambiguity Dilution of Precision), é o tópico principal deste artigo. Basicamente, o ADOP é definido como uma medida escalar para avaliar a precisão das ambiguidades reais (float). Assim, entre as inúmeras possibilidades, a ADOP pode auxiliar na previsão do comportamento de uma linha base ou de uma rede de receptores GNSS no que diz respeito ao problema de solução das ambiguidades envolvidas, quer seja em tempo real (instantânea), ou no modo pós-processado. A vantagem de utilizar a grandeza ADOP advém da possibilidade de extrair uma expressão analítica simplificada, considerando os diversos fatores que afetam a resolução das ambiguidades. Além disso, essa grandeza traz informação a respeito da taxa de sucesso de resolução das ambiguidades. As expressões utilizadas nesse artigo levam em consideração alguns fatores, como por exemplo, informações a priori da precisão das medidas de fase da onda portadora e pseudodistância, número de estações e satélites, número de frequências disponíveis e o comportamento da atmosfera, considerando tanto a troposfera como a ionosfera. A partir dessas informações, diversos cenários são factíveis de serem estabelecidos visando analisar o impacto de cada informação particular na resolução das ambiguidades. As análises foram realizadas no contexto de algumas estações da rede GNSS-SP, uma rede GNSS estabelecida no Estado de São Paulo
    corecore