6 research outputs found
Intervalos de confiança para combinações lineares de proporções
Doutoramento em MatemáticaNesta tese é apresentada a derivação de vários métodos de construção de
intervalos de confiança para combinações lineares de proporções binomiais
de k 2 populações independentes (Xi Bin(ni, pi) , i = 1, . . . , k). Reconhecidas
as deficiências do método de Wald clássico, a utilização de uma
versão ajustada deste método, baseada na família paramétrica de estimadores
de contração (Xi + hi)/(ni + 2hi), hi > 0, permite a derivação de vários
métodos alternativos que têm vindo a ser propostos na literatura. Contudo,
tanto quanto foi possível apurar, nenhum dos parâmetros hi sugeridos pelos
vários autores considerou o efeito da estimativa encontrada para pi na estimação
da combinação linear. Para colmatar esta lacuna, é proposta nesta tese
uma nova variante do método de Wald ajustado. Além das cinco variantes
do método de Wald ajustado aqui consideradas, que se baseiam no modelo
não restrito, são também apresentados outros métodos baseados em modelos
restritos, designadamente os métodos de Newcombe-Zou e Wilson-score-
Yu, desenvolvidos segundo a metodologia MOVER, e os métodos Peskun e
score.
A avaliação e comparação do desempenho dos vários métodos são feitas
através do cálculo de várias medidas baseadas nas probabilidades de cobertura
exata, nos comprimentos esperados e nas probabilidades de não-
-cobertura mesial e distal de cada um dos intervalos. Os conceitos de probabilidade
de não-cobertura mesial e distal são estendidos e é introduzido um
novo critério de classificação para a localização intervalar adaptado a amostras
pequenas e à presença de observações extremais.
Os resultados para os cenários aqui considerados mostram que os intervalos
de confiança obtidos a partir da nova variante têm, em geral, um desempenho
similar aos das outras variantes, mas um desempenho melhorado quando entre
as k populações existem desequilíbrios entre os pesos de cada proporção
da combinação linear e o tamanho da amostra.
Foi realizado um estudo meta-analítico no contexto de prevalências baixas ou
muito baixas, usando quer o modelo de efeito fixo quer o modelo de efeitos
aleatórios, em que foi utilizado o método de Monte Carlo para avaliar e comparar
o desempenho dos intervalos de confiança obtidos através da variante
proposta nesta tese com o dos intervalos de confiança obtidos através de outras
variantes do método deWald ajustado e do método deWald clássico com
transformações logit e duplo arco-seno. Os resultados da simulação mostram
que o método com melhor desempenho é o método de Wald clássico com a
transformação duplo arco-seno, exceto quando o número de estudos é relativamente
elevado e as prevalências são baixas ou muito baixas, situação em
que a nova variante apresenta um melhor desempenho.This thesis presents the derivation of several confidence interval construction
methods for linear combinations of binomial proportions of k 2 independent
populations (Xi Bin(ni, pi) i = 1, . . . , k). Acknowledging the
deficiencies of the classic Wald method, the utilization of an adjusted version
of this method, based on the parametric family of shrinkage estimators
(Xi +hi)/(ni +2hi), hi > 0, has allowed the derivation of alternative methods
that has been proposed by several authors. However, to the best of our knowledge,
none of the parameters hi suggested to date by the various authors
takes into account the effect of the estimate found for pi on the estimation of
the linear combination. To overcome this lack, a new variant of the adjusted
Wald method is proposed in this thesis. Besides the five variants of the adjusted
Wald method herein considered, which are based on the unrestricted model,
other methods, based on restricted models, are also presented, namely
the methods Newcombe-Zou and Wilson-score-Yu, which were developed according
to the MOVER methodology, and the Peskun and score methods.
The evaluation and performance comparison of the various methods are performed
by calculating several measures based on the exact coverage probabilities,
the expected lengths and the mesial and distal non-coverage probabilities
of each of the confidence intervals. The concepts of mesial and distal
non-coverage probabilities are extended and a new classification criterion for
interval location suited to small samples and the presence of extremal observations
is introduced.
The results for the scenarios herein considered show that the confidence intervals
obtained from the new variant proposed in this thesis have, in general,
a similar performance to those from other variants, but show improved performance
when there is an imbalance between the weight of each proportion of
the linear combination and the size of the sample among the k populations.
A meta-analytic study was conducted in the context of low or very low prevalences,
using either the fixed-effect model or the random-effects model, in
which we used the Monte Carlo method to evaluate and compare the performance
of the confidence intervals obtained through the variant proposed in
this thesis with that of the confidence intervals obtained from other variants
of the adjusted Wald method and from the classical Wald method with the logit
and double arcsine transformations. The simulation results show that the
method that performs better is the classic Wald method with the double arcsine
transformation, except when the number of studies is relatively high and
prevalence is low or very low, in which case the new variant performs better
Análise estatística de dados de biologia molecular
Mestrado em Matemática e AplicaçõesNesta dissertação são analisados os genomas completos de 46 espécies de
organismos, com o objectivo de investigar a existência, ou não, de
características estatísticas discriminatórias da classe a que pertence cada
uma das espécies em estudo, com base na distribuição empírica da distância
global entre nucleótidos iguais. Esta distribuição resulta do mapeamento da
estrutura primária do ADN proposto e avaliado por Afreixo et al. (2009).
São utilizadas metodologias estatísticas multivariadas de análise
não-supervisionada e de redução da dimensionalidade, nomeadamente as
classificações hierárquica e não-hierárquica e a análise de componentes
principais. Verifica-se que o mapeamento da distância global entre nucleótidos
iguais captura características essenciais do ADN das espécies analisadas,
uma vez que a distribuição das primeiras distâncias determina uma possível
assinatura genética capaz de permitir a diferenciação entre espécies. Esta
diferenciação é conseguida não só a um nível geral, entre os dois grandes
grupos de espécies eucariotas e procariotas, mas também a níveis mais
especializados.
No que diz respeito ao ajustamento de modelos probabilísticos teóricos à
distribuição empírica de cada espécie, são avaliados o modelo proposto em
Afreixo et al. (2009) e também um modelo alternativo, ambos baseados em
misturas finitas de distribuições geométricas. No caso deste último, é utilizado
o algoritmo EM (Expectation-Maximization) para estimar os seus parâmetros.
A qualidade do ajustamento dos modelos teóricos à distribuição empírica é
investigada com o auxílio do teste de ajustamento do qui-quadrado e também
com a utilização de medidas de similaridade. Os resultados obtidos permitem
constatar que, na maioria das espécies em estudo, o modelo de mistura de
quatro distribuições geométricas é aquele que melhor se ajusta à distribuição
empírica da distância global entre nucleótidos iguais.In this dissertation the complete genomes of 46 species of organisms are
analysed, with the aim of investigating the possible existence of discriminatory
statistical characteristics of the class to which each of the species under study
belongs, based on the empirical distribution of the global distance between
equal nucleotides. This distribution came about from the mapping scheme for
the primary structure of DNA proposed and assessed by Afreixo et al. (2009).
Unsupervised multivariate statistical and dimensionality reduction methods are
used in the present analysis, namely hierarchical classification, non
hierarchical classification and principal component analysis. It is shown that
the mapping of the global distance between equal nucleotides captures
essential features of the DNA of the species studied, as it allows to infer that
the distribution of the first distances represents a possible genetic signature
capable of differentiating among species. This differentiation is achieved not
only at a general level between the two major groups of species, eukaryotic
and prokaryotic, but also at more specialized levels.
Furthermore, fittings of probabilistic models to the empirical distribution are
investigated for each specie. More specifically, the model proposed by Afreixo
et al. (2009) and an alternative model, both based on finite geometric mixture
models, are analysed. In the latter case, the EM (Expectation-Maximization)
algorithm is used to estimate its parameters. The goodness of fit of the
theoretical models is assessed using a chi-square test and measures of
similarity. For most species studied, the results show that four-component
geometric mixture models are the ones that better fit to the empirical
distribution of the global distance between equal nucleotides
Approximate confidence intervals for a linear combination of binomial proportions: A new variant
We propose a new adjustment for constructing an improved version of
theWald interval for linear combinations of binomial proportions, which
addresses the presence of extremal samples. A comparative simulation
study was carried out to investigate the performance of this new variant
with respect to the exact coverage probability, expected interval length,
and mesial and distal noncoverage probabilities. Additionally, we discuss
the application of a criterion for interpreting interval location in
the case of small samples and/or in situations in which extremal observations
exist. The confidence intervals obtained from the new variant performed better for some evaluation measures
COVID-19's pandemic: a new way of thinking through linear combinations of proportions
Knowledge about the evolution of an epidemic is of critical importance for assessing the needs of the National Health System (NHS), planning the necessary responses and coordinating resources countrywide. In this work, we analyze the behavior of the COVID-19 epidemic curve in Portugal, by using linear combinations of proportions. These proportions are based on the number of nonhospitalized and hospitalized cases and deaths. The trajectories of different linear relations of proportions and pairs of two proportions are graphically displayed in order to allow the comparison of their behaviors over time. By using as the baseline the summer period of 2020, which corresponds to the “lowest level” of the epidemic curve and is what we consider a “comfortable” scenario for the NHS, we identified several linear relations of proportions that may be used to highlight relevant transitions between future periods of the epidemic and thus provide indicators for assessing the overall state of the resources of the NHS dedicated to treating COVID-19 patients. Our analysis shows an association between the implementation of public health measures and the easing of the pressure over the NHS. These indicators can potentially be used to better prevent the exhaustion of the NHS resources.publishe
Lamin A/C and PI(4,5)P2—A Novel Complex in the Cell Nucleus
Lamins, the nuclear intermediate filaments, are important regulators of nuclear structural integrity as well as nuclear functional processes such as DNA transcription, replication and repair, and epigenetic regulations. A portion of phosphorylated lamin A/C localizes to the nuclear interior in interphase, forming a lamin A/C pool with specific properties and distinct functions. Nucleoplasmic lamin A/C molecular functions are mainly dependent on its binding partners; therefore, revealing new interactions could give us new clues on the lamin A/C mechanism of action. In the present study, we show that lamin A/C interacts with nuclear phosphoinositides (PIPs), and with nuclear myosin I (NM1). Both NM1 and nuclear PIPs have been previously reported as important regulators of gene expression and DNA damage/repair. Furthermore, phosphorylated lamin A/C forms a complex with NM1 in a phosphatidylinositol-4,5-bisphosphate (PI(4,5)P2)-dependent manner in the nuclear interior. Taken together, our study reveals a previously unidentified interaction between phosphorylated lamin A/C, NM1, and PI(4,5)P2 and suggests new possible ways of nucleoplasmic lamin A/C regulation, function, and importance for the formation of functional nuclear microdomains