5,977 research outputs found
Estimating and Correcting the Effects of Model Selection Uncertainty
Die meisten statistischen Analysen werden
in Unkenntnis des wahren Modells durchgefĂŒhrt, d.h. dass das
Modell, das die Daten erzeugte, unbekannt ist und die Daten
zunĂ€chst dafĂŒr verwendet werden, mit Hilfe eines
Modellauswahlkriteriums ein Modell aus einer Menge plausibler
Modelle auszuwÀhlen. Gewöhnlich werden die Daten dann verwendet, um
SchlĂŒsse ĂŒber einige Variablen zu ziehen. Dabei wird die
Modellunsicherheit, also die Tatsache, dass der
Modellauswahlschritt mit den gleichen Daten durchgefĂŒhrt wurde,
ignoriert, obwohl man weiĂ, dass dies zu ungĂŒltigen
Schlussfolgerungen fĂŒhrt. Die vorliegende Arbeit untersucht einige
Aspekte des Problems sowohl aus bayesianischer als auch aus
frequentistischer Sicht und macht neue VorschlÀge, wie mit dem
Problem umgegangen werden kann. Wir untersuchen bayesianische
Modellmittelung (Bayesian model averaging =BMA) und zeigen, dass
dessen frequentistisches Abschneiden nicht immer wohldefiniert ist,
denn in einigen FĂ€llen ist es unklar, ob BMA wirklich bayesianisch
ist. Wir illustrieren diesen Punkt mit einer âvollstĂ€ndigen
bayesianische Modellmittelungâ, die anwendbar ist, wenn die
interessierende GröĂe parametrisch ist. Wir stellen ein System vor,
das die KomplexitÀt von SchÀtzern nach der Modellauswahl aufdeckt
(âpost-model-selection SchĂ€tzerâ) und untersuchen ihre
Eigenschaften im Kontext der linearen Regression fĂŒr eine Vielzahl
an Modellauswahlprozeduren. Wir zeigen, dass kein
Modellauswahlkriterium gleichmĂ€Ăig besser ist als alle anderen, im
Sinne der Risikofunktion. SchlĂŒsselzutaten des Problems werden
identifiziert und verwendet, um zu zeigen, dass selbst konsistente
Modellauswahlkriterien das Problem der Modellauswahlunsicherheit
nicht lösen. Wir argumentieren auĂerdem, dass das Bedingen der
Analyse auf die Teilmenge des Stichprobenraumes, die zu einem
bestimmten Modell fĂŒhrte, unvollstĂ€ndig ist. Wir betrachten das
Problem aus frequentistischer Sicht. Obwohl Modellmittelung und
Modellauswahl normalerweise als zwei getrennte Herangehensweisen
betrachtet werden, schlagen wir vor, das zweite als Spezialfall der
Modellmittelung zu betrachten, in welcher die (zufÀlligen) Gewichte
den Wert 1 fĂŒr das ausgewĂ€hlte Modell annehmen und 0 fĂŒr alle
anderen. Aus dieser Perspektive, und da die optimalen Gewichte in
der Praxis nicht bestimmt werden können, kann nicht erwartet
werden, dass eine der zwei Methoden die andere konsistent
ĂŒbertrifft. Es fĂŒhrt uns dazu, alternative Gewichte fĂŒr die
Mittelung vorzuschlagen, die dazu gedacht sind, die
post-model-selection SchÀtzung zu verbessern. Die Innovation
besteht darin, die Modellauswahlprozedur bei der Bestimmung der
Gewichte zu berĂŒcksichtigen. Wir vergleichen die verschiedenen
Methoden fĂŒr einige einfache FĂ€lle (lineare Regression und
HÀufigkeitsschÀtzung). Wir zeigen, dass Bootstrapverfahren keine
guten SchĂ€tzer fĂŒr die Eigenschaften der post-model-selection
SchĂ€tzer liefern. ZurĂŒckkehrend zur bayesianischen Sicht zeigen wir
auf, dass, solange die Analyse bedingt auf die Daten stattfindet,
Modellauswahlunsicherheit kein Problem ist, nur die Unsicherheit
des Modells an sich. Wenn jemand allerdings an den
frequentistischen Eigenschaften der bayesianischen
post-model-selection SchÀtzern interessiert ist, ist die Situation
analog zu der in der frequentistischen Analyse. Hier schlagen wir
wieder eine Alternative zur gewöhnlichen BMA vor, in der die
Gewichte von den Auswahlkriterien des Modells abhÀngen und somit
die Auswahlprozedur berĂŒcksichtigen. Wir zeigen auĂerdem, dass die
Eigenschaften von Modellmittelung und post-model-selection
SchÀtzern nur unter einem angenommenen wahren Modell hergeleitet
werden können. Unter einer solchen Annahme wĂŒrde man allerdings
einfach das wahre Modell nehmen, ohne Modellwahl oder
Modellmittelung anzuwenden. Dieser Zirkelschluss macht es so
schwierig, mit dem Problem umzugehen. Traditionelle explorative
frequentistische Datenanalyse und Aufstellung eines Modells kann
als eine informelle Modellwahl betrachtet werden, in welcher die
genaue Modellauswahlprozedur schwierig zu rekonstruieren ist, was
es besonders schwierig macht, gĂŒltige Schlussfolgerungen zu ziehen.
Ohne die Debatte ĂŒber Vor- und Nachteile der bayesianischen und
frequentistischen Methoden zu fĂŒhren, möchten wir betonen, dass
bayesianische Methoden vorzuziehen sind, um
Modellauswahlunsicherheit zu vermeiden, solange die
frequentistischen Eigenschaften des resultierenden SchÀtzers nicht
von Interesse sind
Confidence Intervals for Ratios of Proportions in Stratified Bilateral Correlated Data
Confidence interval (CI) methods for stratified bilateral studies use
intraclass correlation to avoid misleading results. In this article, we propose
four CI methods (sample-size weighted global MLE-based Wald-type CI, complete
MLE-based Wald-type CI, profile likelihood CI, and complete MLE-based score CI)
to investigate CIs of proportion ratios to clinical trial design with
stratified bilateral data under Dallal's intraclass model. Monte Carlo
simulations are performed, and the complete MLE-based score confidence interval
(CS) method yields a robust outcome. Lastly, a real data example is conducted
to illustrate the proposed four CIs.Comment: arXiv admin note: text overlap with arXiv:2303.1294
Estimation and Inference of the Three-Level Intraclass Correlation Coefficient
Since the early 1900\u27s, the intraclass correlation coefficient (ICC) has been used to quantify the level of agreement among different assessments on the same object. By comparing the level of variability that exists within subjects to the overall error, a measure of the agreement among the different assessments can be calculated. Historically, this has been performed using subject as the only random effect. However, there are many cases where other nested effects, such as site, should be controlled for when calculating the ICC to determine the chance corrected agreement adjusted for other nested factors. We will present a unified framework to estimate both the two-level and three-level ICC for both binomial and multinomial outcomes. In addition, the corresponding standard errors and confidence intervals for both ICC measurements will be displayed. Finally, an example of the effect that controlling for site can have on ICC measures will be presented for subjects nested within genotyping plates comparing genetically determined race to patient reported race.
In addition, when determining agreement on a multinomial response, the question of homogeneity of agreement of individual categories within the multinomial response is raised. One such scenario is the GO project at the University of Pennsylvania where subjects ages 8-21 were asked to rate a series of actors\u27 faces as happy, sad, angry, fearful or neutral. Methods exist to quantify overall agreement among the five responses, but only if the ICCs for each item-wise response are homogeneous. We will present a method to determine homogeneity of ICCs of the item-wise responses across a multinomial outcome and provide simulation results that demonstrate strong control of the type I error rate. This method will subsequently be extended to verify the assumptions of homogeneity of ICCs in the multinomial nested-level model to determine if the overall nested-level ICC is sufficient to describe the nested-level agreement
Forbidden triads and Creative Success in Jazz: The Miles Davis Factor
This article argues for the importance of forbidden triads - open triads with
high-weight edges - in predicting success in creative fields. Forbidden triads
had been treated as a residual category beyond closed and open triads, yet I
argue that these structures provide opportunities to combine socially evolved
styles in new ways. Using data on the entire history of recorded jazz from 1896
to 2010, I show that observed collaborations have tolerated the openness of
high weight triads more than expected, observed jazz sessions had more
forbidden triads than expected, and the density of forbidden triads contributed
to the success of recording sessions, measured by the number of record releases
of session material. The article also shows that the sessions of Miles Davis
had received an especially high boost from forbidden triads
Bias in parametric estimation: reduction and useful side-effects
The bias of an estimator is defined as the difference of its expected value
from the parameter to be estimated, where the expectation is with respect to
the model. Loosely speaking, small bias reflects the desire that if an
experiment is repeated indefinitely then the average of all the resultant
estimates will be close to the parameter value that is estimated. The current
paper is a review of the still-expanding repository of methods that have been
developed to reduce bias in the estimation of parametric models. The review
provides a unifying framework where all those methods are seen as attempts to
approximate the solution of a simple estimating equation. Of particular focus
is the maximum likelihood estimator, which despite being asymptotically
unbiased under the usual regularity conditions, has finite-sample bias that can
result in significant loss of performance of standard inferential procedures.
An informal comparison of the methods is made revealing some useful practical
side-effects in the estimation of popular models in practice including: i)
shrinkage of the estimators in binomial and multinomial regression models that
guarantees finiteness even in cases of data separation where the maximum
likelihood estimator is infinite, and ii) inferential benefits for models that
require the estimation of dispersion or precision parameters
Characterizing genetic intra-tumor heterogeneity across 2,658 human cancer genomes
Intra-tumor heterogeneity (ITH) is a mechanism of therapeutic resistance and therefore an important clinical challenge. However, the extent, origin, and drivers of ITH across cancer types are poorly understood. To address this, we extensively characterize ITH across whole-genome sequences of 2,658 cancer samples spanning 38 cancer types. Nearly all informative samples (95.1 %) contain evidence of distinct subclonal expansions with frequent branching relationships between subclones, We observe positive selection of subclonal driver mutations across most cancer types and identify cancer type-specific subclonal patterns of driver gene mutations, fusions, structural variants, and copy number alterations as well as dynamic changes in mutational processes between subclonal expansions. Our results underline the importance of ITH and its drivers in tumor evolution and provide a pan-cancer resource of comprehensively annotated subclonal events from whole-genome sequencing data.Peer reviewe
- âŠ