261 research outputs found
Acceleration of Solvation Free Energy Calculation via Thermodynamic Integration Coupled with Gaussian Process Regression and Improved Gelman-Rubin Convergence Diagnostics
The determination of the solvation free energy of ions and molecules holds
profound importance across a spectrum of applications spanning chemistry,
biology, energy storage, and the environment. Molecular dynamics simulations
are a powerful tool for computing this critical parameter. Nevertheless, the
accurate and efficient calculation of solvation free energy becomes a
formidable endeavor when dealing with complex systems characterized by potent
Coulombic interactions and sluggish ion dynamics and, consequently, slow
transition across various metastable states. In the present study, we expose
limitations stemming from the conventional calculation of the statistical
inefficiency g in the thermodynamic integration method, a factor that can
hinder the determination of convergence of the solvation free energy and its
associated uncertainty. Instead, we propose a robust scheme based on
Gelman-Rubin convergence diagnostics. We leverage this improved estimation of
uncertainties to introduce an innovative accelerated thermodynamic integration
method based on Gaussian Process regression. This methodology is applied to the
calculation of the solvation free energy of trivalent rare earth elements
immersed in ionic liquids, a scenario where the aforementioned challenges
render standard approaches ineffective. The proposed method proves effective in
computing solvation free energy in situations where traditional thermodynamic
integration methods fall short.Comment: Main text: 24 pages, 8 figures; Supporting information: 8 pages, 9
figures, 2 table
A COMPREHENSIVE GEOSPATIAL KNOWLEDGE DISCOVERY FRAMEWORK FOR SPATIAL ASSOCIATION RULE MINING
Continuous advances in modern data collection techniques help spatial scientists gain access to massive and high-resolution spatial and spatio-temporal data. Thus there is an urgent need to develop effective and efficient methods seeking to find unknown and useful information embedded in big-data datasets of unprecedentedly large size (e.g., millions of observations), high dimensionality (e.g., hundreds of variables), and complexity (e.g., heterogeneous data sources, space–time dynamics, multivariate connections, explicit and implicit spatial relations and interactions). Responding to this line of development, this research focuses on the utilization of the association rule (AR) mining technique for a geospatial knowledge discovery process.
Prior attempts have sidestepped the complexity of the spatial dependence structure embedded in the studied phenomenon. Thus, adopting association rule mining in spatial analysis is rather problematic. Interestingly, a very similar predicament afflicts spatial regression analysis with a spatial weight matrix that would be assigned a priori, without validation on the specific domain of application. Besides, a dependable geospatial knowledge discovery process necessitates algorithms supporting automatic and robust but accurate procedures for the evaluation of mined results. Surprisingly, this has received little attention in the context of spatial association rule mining.
To remedy the existing deficiencies mentioned above, the foremost goal for this research is to construct a comprehensive geospatial knowledge discovery framework using spatial association rule mining for the detection of spatial patterns embedded in geospatial databases and to demonstrate its application within the domain of crime analysis. It is the first attempt at delivering a complete geo-spatial knowledge discovery framework using spatial association rule mining
Universal QM/MM Approaches for General Nanoscale Applications
Hybrid quantum mechanics/molecular mechanics (QM/MM) hybrid models allow one
to address chemical phenomena in complex molecular environments. However, they
are tedious to construct and they usually require significant manual
preprocessing and expertise. As a result, these models may not be easily
transferable to new application areas and the many parameters are not easy to
adjust to reference data that are typically scarce. Therefore, it has been
difficult to devise automated procedures of controllable accuracy, which makes
such type of modelling far from being standardized or of black-box type.
Although diverse best-practice protocols have been set up for the construction
of individual components of a QM/MM model (e.g., the MM potential, the type of
embedding, the choice of the QM region), no automated procedures are available
for all steps of the QM/MM model construction. Here, we review the state of the
art of QM/MM modeling with a focus on automation. We elaborate on the MM model
parametrization, on atom-economical physically-motivated QM region selection,
and on embedding schemes that incorporate mutual polarization as critical
components of the QM/MM model. In view of the broad scope of the field, we
mostly restrict the discussion to methodologies that build de novo models based
on first-principles data, on uncertainty quantification, and on error
mitigation with a high potential for automation. Ultimately, it is desirable to
be able to set up reliable QM/MM models in a fast and efficient automated way
without being constrained by some specific chemical or technical limitations.Comment: 54 pages, 3 figures, 1 tabl
Shell morphological diversification patterns and molecular systematics of the testate amoebae orders Arcellinida and Euglyphida
Tesis Doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Biología. Fecha de Lectura: 09-03-2023Para inferir los patrones generales que rigen la biodiversidad es necesario tener una buena representación de los taxones
que la componen, y esto incluye también a los organismos más pequeños. Si bien se puede argumentar que el
conocimiento de ciertos grupos de plantas y animales puede ser insuficiente, existe un claro vacío de conocimiento en los
protistas, especialmente en el suelo y agua dulce. Para resolver esta “laguna” de conocimiento, esta tesis propone
centrarse en un grupo particular de protistas que viven principalmente en ecosistemas continentales, las amebas tecadas.
Pero para ello, es necesario resolver algunas faltas de conocimiento y desarrollar protocolos específicos para el estudio
rápido y eficiente de la biodiversidad en estos taxones. La ausencia de tales protocolos limita enormemente su estudio,
así como sus potenciales aplicaciones.
Las amebas tecadas son un grupo parafilético de protistas ameboides que tienen en común un “caparazón” o
teca autoconstruida. Estos organismos constituyen órdenes dentro de "supergrupos" eucariotas muy poco relacionados;
Arcellinida en Amebozoa, Euglyphida y Thecofilosea en Rhizaria y Amphitremida en Stramenopiles (=Heterokonta). Dentro
de cada grupo, estos organismos difieren en la composición y forma de las tecas, que constituyen la base de su taxonomía
y sistemática. Intuitivamente, los investigadores han clasificado a los organismos asumiendo que morfologías de la teca
similares deberían compartir un ancestro común. Esta suposición se basa en la hipótesis de que las tecas están sometidas
a una selección neutral, y descarta la posibilidad de convergencias evolutivas entre especies o clados. Sin embargo, el
“barcoding” molecular ha desafiado la sistemática y la taxonomía clásicas basadas en la morfología, mostrando patrones
de diversificación morfológica de las tecas mucho más complejos y enmarañadas de lo que se pensaba. Estos resultados
subrayan la necesidad de aplicar un enfoque molecular para caracterizar los taxones y establecer las relaciones entre
ellos. Sin embargo, por el momento, casi todos los datos moleculares disponibles son de un único infraorden dentro de
Arcellinida, los Hyalospheniformes. En Euglyphida, sólo el infraorden Euglyphina ha sido (relativamente) bien muestreado
molecularmente.
El primer objetivo de esta tesis es aumentar la base de datos molecular de las amebas tecadas, centrándose
en Arcellinida y Euglyphida, recuperando las regiones genéticas 18S rRNA, COI y NADH. Dentro de estos genes que se
han utilizado, el gen nuclear 18S rRNA fue el más conservado. También ha sido el más útil para la reconstrucción de
relaciones más profundas, aunque demasiado conservado para discriminar entre especies. Por este motivo, nos centramos
en el gen mitocondrial COI, de rápida evolución, que a su vez permite una buena resolución a nivel de especie. Siguiendo
los principios de la taxonomía integrativa, también obtuvimos (además de las secuencias moleculares) datos sobre su
localización, ecología y morfología de la teca. Esta tesis incluye los primeros datos moleculares para amebas tecadas de
la Península Ibérica, tanto en ambientes de agua dulce, suelos, como de sedimentos marinos. También incluyen los
primeros datos moleculares para géneros como Plagiopyxis o Trigonopyxis . Estas bases de datos servirán de antecedente
para futuros estudios, y serán fundamentales para responder a dos preguntas que estructuran esta tesis:
1) "¿Cómo evoluciona la morfología de la teca en las amebas tecadas?": Entender los patrones de
diversificación en las amebas tecadas es esencial para aclarar su taxonomía y sistemática, así como la aplicación de sus
rasgos funcionales en los análisis ecológicos. Aquí nos centramos en la familia Cyphoderiidae (Euglyphida), Arcellidae
(Arcellinida) y otros taxones de Arcellinida. Evaluamos las relaciones filogenéticas entre los taxones basándonos en datos
moleculares y “mapeamos” las morfologías de las tecas y la ecología de los organismos en los árboles filogenéticos.
Nuestros resultados muestran correlaciones entre ambientes y morfotipos, aportando varios casos de patrones
convergentes. Esto sugiere que algunos rasgos de la teca pueden estar bajo selección positiva.
2) "¿Cómo generar datos moleculares de forma rápida y eficiente en Arcellinida?": La obtención de
datos moleculares en amebas tecadas siempre ha sido un problema importante, debido a las dificultades de trabajar con
estos organismos (en su mayoría) no cultivables. En consecuencia, la obtención de datos moleculares sobre las amebas
tecadas es costosa en términos de tiempo y dinero, lo que explica en gran medida que sigan siendo relativamente poco
estudiadas en comparación con otros grupos de protistas. Para resolver este problema, diseñamos un protocolo específico
para obtener datos de ADN ambiental de Arcellinida, basado en los datos disponibles. Con este protocolo molecular
específico de Arcellinida, se espera obtener cientos de secuencias ambientales mediante técnicas de “secuenciación de
alto rendimiento”. Esto permitirá realizar experimentos ecológicos y biogeográficos de gran tamaño, así como estudios
de bioindicación, todo lo cual requiere cantidades considerables de datos que eran imposibles de obtener en el pasado.
Esta tesis aporta una nueva perspectiva integral de la historia evolutiva y la diversificación morfológica de las
tecas de los órdenes Arcellinida y Euglyphida existentes; destacando la importancia de incorporar a los protistas, como
las amebas tecadas, a la hora de sacar conclusiones generales que se apliquen a los eucariotas o a la biodiversidad en
genera
VARTOOLS: A Program for Analyzing Astronomical Time-Series Data
This paper describes the VARTOOLS program, which is an open-source
command-line utility, written in C, for analyzing astronomical time-series
data, especially light curves. The program provides a general-purpose set of
tools for processing light curves including signal identification, filtering,
light curve manipulation, time conversions, and modeling and simulating light
curves. Some of the routines implemented include the Generalized Lomb-Scargle
periodogram, the Box-Least Squares transit search routine, the Analysis of
Variance periodogram, the Discrete Fourier Transform including the CLEAN
algorithm, the Weighted Wavelet Z-Transform, light curve arithmetic, linear and
non-linear optimization of analytic functions including support for Markov
Chain Monte Carlo analyses with non-trivial covariances, characterizing and/or
simulating time-correlated noise, and the TFA and SYSREM filtering algorithms,
among others. A mechanism is also provided for incorporating a user's own
compiled processing routines into the program. VARTOOLS is designed especially
for batch processing of light curves, including built-in support for parallel
processing, making it useful for large time-domain surveys such as searches for
transiting planets. Several examples are provided to illustrate the use of the
program.Comment: 83 pages, 5 figures, accepted for publication in Astronomy and
Computing, code available at
http://www.astro.princeton.edu/~jhartman/vartools.htm
In silico characterization of the family of PARP-like poly(ADP-ribosyl)transferases (pARTs)
BACKGROUND: ADP-ribosylation is an enzyme-catalyzed posttranslational protein modification in which mono(ADP-ribosyl)transferases (mARTs) and poly(ADP-ribosyl)transferases (pARTs) transfer the ADP-ribose moiety from NAD onto specific amino acid side chains and/or ADP-ribose units on target proteins. RESULTS: Using a combination of database search tools we identified the genes encoding recognizable pART domains in the public genome databases. In humans, the pART family encompasses 17 members. For 16 of these genes, an orthologue exists also in the mouse, rat, and pufferfish. Based on the degree of amino acid sequence similarity in the catalytic domain, conserved intron positions, and fused protein domains, pARTs can be divided into five major subgroups. All six members of groups 1 and 2 contain the H-Y-E trias of amino acid residues found also in the active sites of Diphtheria toxin and Pseudomonas exotoxin A, while the eleven members of groups 3 – 5 carry variations of this motif. The pART catalytic domain is found associated in Lego-like fashion with a variety of domains, including nucleic acid-binding, protein-protein interaction, and ubiquitylation domains. Some of these domain associations appear to be very ancient since they are observed also in insects, fungi, amoebae, and plants. The recently completed genome of the pufferfish T. nigroviridis contains recognizable orthologues for all pARTs except for pART7. The nearly completed albeit still fragmentary chicken genome contains recognizable orthologues for twelve pARTs. Simpler eucaryotes generally contain fewer pARTs: two in the fly D. melanogaster, three each in the mosquito A. gambiae, the nematode C. elegans, and the ascomycete microfungus G. zeae, six in the amoeba E. histolytica, nine in the slime mold D. discoideum, and ten in the cress plant A. thaliana. GenBank contains two pART homologues from the large double stranded DNA viruses Chilo iridescent virus and Bacteriophage Aeh1 and only a single entry (from V. cholerae) showing recognizable homology to the pART-like catalytic domains of Diphtheria toxin and Pseudomonas exotoxin A. CONCLUSION: The pART family, which encompasses 17 members in the human and 16 members in the mouse, can be divided into five subgroups on the basis of sequence similarity, phylogeny, conserved intron positions, and patterns of genetically fused protein domains
- …