2,451 research outputs found
STATISTICAL INTERVALS FOR VARIOUS DISTRIBUTIONS BASED ON DIFFERENT INFERENCE METHODS
Statistical intervals (e.g., confidence, prediction, or tolerance) are widely used to quantify uncertainty, but complex settings can create challenges to obtain such intervals that possess the desired properties. My thesis will address diverse data settings and approaches that are shown empirically to have good performance. We first introduce a focused treatment on using a single-layer bootstrap calibration to improve the coverage probabilities of two-sided parametric tolerance intervals for non-normal distributions. We then turn to zero-inflated data, which are commonly found in, among other areas, pharmaceutical and quality control applications. However, the inference problem often becomes difficult in the presence of excess zeros. When data are semicontinuous, the log-normal and gamma distributions are often considered for modeling the positive part of the model. The problems of constructing a confidence interval for the mean and calculating an upper tolerance limit of a zero-inflated gamma population are considered using generalized fiducial inference. Furthermore, we use generalized fiducial inference on the problem of constructing confidence intervals for the population mean of zero-inflated Poisson distribution. Birnbaum–Saunders distribution is widely used as a failure time distribution in reliability applications to model failure times. Statistical intervals for Birnbaum–Saunders distribution are not well developed. Moreover, we utilize generalized fiducial inference to obtain the upper prediction limit and upper tolerance limit for Birnbaum–Saunders distribution. Simulation studies and real data examples are used to illustrate the effectiveness of the proposed methods
Prediction intervals based on historical control data obtained from bioassays
Die Berechnung von Vorhersageintervallen auf derGrundlage von historischen Kontrolldaten aus Bioassays
ist in vielen Bereichen der biologischen Forschung von Interesse. Bei pharmazeutischen und präklinischen
Anwendungen, wie z. B. Immonogenitätstests, ist die Berechnung von Vorhersageintervallen (oder oberen
Vorhersagegrenzen), die zwischen anti-drug Antikörper positiven Patienten und anti-drug Antikörper negativen
Patienten unterscheiden, von Interesse. In der (Öko-)Toxikologie werden verschiedene Bioassays
angewendet, um die toxikologischen Eigenschaften einer bestimmten chemischen Verbindung anModellorganismen
zu untersuchen (z. B. ihre Karzinogenität oder ihre Auswirkungen auf aquatische Nahrungsketten).
In diesem Forschungsbereich ist es von Interesse zu überprüfen, ob das Ergebnis der aktuellen
unbehandelten Kontrolle (oder der gesamten aktuellen Studie) mit den historischen Informationen übereinstimmt.
Zu diesem Zweck können Vorhersageintervalle auf der Grundlage von historischen Kontrolldaten
berechnet werden. Wenn die aktuellen Beobachtungen im Vorhersageintervall liegen, kann davon
ausgegangen werden, dass sie mit den historischen Informationen übereinstimmen.
Das erste Kapitel dieser Arbeit gibt einen detaillierten Überblick über die Verwendung von historischen
Kontrolldaten im Rahmen von biologischen Versuchen. Darüber hinaus wird ein Überblick über die Datenstruktur
(dichotome Daten, Zähldaten, kontinuierliche Daten) und die Modelle, auf denen die vorgeschlagenen
Vorhersageintervalle basieren, gegeben. Im Zusammenhang mit dichotomen Daten oder Zähldaten
wird besonderes Augenmerk auf Überdispersion gelegt, die in Daten mit biologischem Hintergrund häufig
vorkommt, in der Literatur zu Vorhersageintervallen jedoch meist nicht berücksichtigt wird.
Daher wurden Vorhersageintervalle für eine zukünftige Beobachtung vorgeschlagen, die auf überdispersen
Binomialdaten beruhen. Die Überdeckungswahrscheinlichkeiten dieser Intervalle wurden auf der Grundlage
von Monte-Carlo-Simulationen bewertet und lagen wesentlich näher am nominellen Level als die in
der Literatur gefundenen Vorhersageintervalle, die keineÜberdispersion berücksichtigen (siehe Abschnitte
2.1 und 2.2).
In mehreren Anwendungen ist die abhängige Variable kontinuierlich und wird als normalverteilt angenommen.
Dennoch können die Daten durch verschiedene Zufallsfaktoren (zum Beispiel unterschiedliche Labore
die Proben von mehreren Patienten analysieren) beeinflusst werden. In diesem Fall können die Daten
durch lineareModelle mit zufälligen Effekten modelliert werden, bei denen Parameterschätzer mittels Restricted-
Maximum-Likelihood Verfahren geschätztwerden. Für dieses Szenariowerden in Abschnitt 2.3 zwei
Vorhersageintervalle vorgeschlagen. Eines dieser vorgeschlagenen Intervalle basiert auf einem Bootstrap-
Kalibrierungsverfahren, das es auch in Fällen anwendbar macht, in denen ein Vorhersageintervall für mehr
als eine zukünftige Beobachtung benötigt wird.
Abschnitt 2.4 beschreibt das R-Paket predint, in dem das in Abschnitt 2.3 beschriebene bootstrap-kalibrierte
Vorhersageintervall (sowie untere und obere Vorhersagegrenzen) implementiert ist. Darüber hinaus sind
Vorhersageintervalle für mindestens eine zukünftige Beobachtung für überdisperse Binomial- oder Zähldaten
implementiert.
Der Kern dieser Arbeit besteht in der Berechnung von Vorhersageintervallen für eine oder mehrere zukünftige
Beobachtungen, die auf überdispersen Binomialdaten, überdispersen Zähldaten oder linearen Modellen
mit zufälligen Effekten basieren. Nach Kenntnis des Autors ist dies das erste Mal, dass Vorhersageintervalle,
die Überdispersion berücksichtigen, vorgeschlagen werden. Darüber hinaus ist "predint" das erste
über CRAN verfügbare R-Paket, das Funktionen für die Anwendung von Vorhersageintervallen für die
genanntenModelle bereitstellt. Somit ist die in dieser Arbeit vorgeschlageneMethodik öffentlich zugänglich
und kann von anderen Forschenden leicht angewendet werden
Exact Methods for Multistage Estimation of a Binomial Proportion
We first review existing sequential methods for estimating a binomial
proportion. Afterward, we propose a new family of group sequential sampling
schemes for estimating a binomial proportion with prescribed margin of error
and confidence level. In particular, we establish the uniform controllability
of coverage probability and the asymptotic optimality for such a family of
sampling schemes. Our theoretical results establish the possibility that the
parameters of this family of sampling schemes can be determined so that the
prescribed level of confidence is guaranteed with little waste of samples.
Analytic bounds for the cumulative distribution functions and expectations of
sample numbers are derived. Moreover, we discuss the inherent connection of
various sampling schemes. Numerical issues are addressed for improving the
accuracy and efficiency of computation. Computational experiments are conducted
for comparing sampling schemes. Illustrative examples are given for
applications in clinical trials.Comment: 38 pages, 9 figure
Statistical aspects of carbon fiber risk assessment modeling
The probabilistic and statistical aspects of the carbon fiber risk assessment modeling of fire accidents involving commercial aircraft are examined. Three major sources of uncertainty in the modeling effort are identified. These are: (1) imprecise knowledge in establishing the model; (2) parameter estimation; and (3)Monte Carlo sampling error. All three sources of uncertainty are treated and statistical procedures are utilized and/or developed to control them wherever possible
Evaluating methods for estimating rare events with zero-heavy data: a simulation model estimating sea turtle bycatch in the pelagic longline fishery
Estimating rare events from zero-heavy data (data with
many zero values) is a common challenge in fisheries science and ecology. For example, loggerhead sea turtles
(Caretta caretta) and leatherback sea turtles (Dermochelys coriacea) account for less than 1% of total catch in the
U.S. Atlantic pelagic longline fishery. Nevertheless, the Southeast Fisheries Science Center (SEFSC) of the National Marine Fisheries Service (NMFS) is charged with assessing the effect of this fishery on these federally protected species. Annual estimates of loggerhead and leatherback
bycatch in a fishery can affect fishery management and species conservation decisions. However, current estimates
have wide confidence intervals, and their accuracy is unknown. We evaluate 3 estimation methods, each at 2
spatiotemporal scales, in simulations of 5 spatial scenarios representing incidental capture of sea turtles by
the U.S. Atlantic pelagic longline fishery. The delta-log normal method of estimating bycatch for calendar quarter and fishing area strata was the least biased estimation method in the spatial scenarios believed to be most realistic. This result supports the current estimation procedure used by the SEFSC
Statistical coverage for supersymmetric parameter estimation: a case study with direct detection of dark matter
Models of weak-scale supersymmetry offer viable dark matter (DM) candidates.
Their parameter spaces are however rather large and complex, such that pinning
down the actual parameter values from experimental data can depend strongly on
the employed statistical framework and scanning algorithm. In frequentist
parameter estimation, a central requirement for properly constructed confidence
intervals is that they cover true parameter values, preferably at exactly the
stated confidence level when experiments are repeated infinitely many times.
Since most widely-used scanning techniques are optimised for Bayesian
statistics, one needs to assess their abilities in providing correct confidence
intervals in terms of the statistical coverage. Here we investigate this for
the Constrained Minimal Supersymmetric Standard Model (CMSSM) when only
constrained by data from direct searches for dark matter. We construct
confidence intervals from one-dimensional profile likelihoods and study the
coverage by generating several pseudo-experiments for a few benchmark sets of
pseudo-true parameters. We use nested sampling to scan the parameter space and
evaluate the coverage for the benchmarks when either flat or logarithmic priors
are imposed on gaugino and scalar mass parameters. The sampling algorithm has
been used in the configuration usually adopted for exploration of the Bayesian
posterior. We observe both under- and over-coverage, which in some cases vary
quite dramatically when benchmarks or priors are modified. We show how most of
the variation can be explained as the impact of explicit priors as well as
sampling effects, where the latter are indirectly imposed by physicality
conditions. For comparison, we also evaluate the coverage for Bayesian credible
intervals, and observe significant under-coverage in those cases.Comment: 30 pages, 5 figures; v2 includes major updates in response to
referee's comments; extra scans and tables added, discussion expanded, typos
corrected; matches published versio
- …