261 research outputs found

    Acceleration of Solvation Free Energy Calculation via Thermodynamic Integration Coupled with Gaussian Process Regression and Improved Gelman-Rubin Convergence Diagnostics

    Full text link
    The determination of the solvation free energy of ions and molecules holds profound importance across a spectrum of applications spanning chemistry, biology, energy storage, and the environment. Molecular dynamics simulations are a powerful tool for computing this critical parameter. Nevertheless, the accurate and efficient calculation of solvation free energy becomes a formidable endeavor when dealing with complex systems characterized by potent Coulombic interactions and sluggish ion dynamics and, consequently, slow transition across various metastable states. In the present study, we expose limitations stemming from the conventional calculation of the statistical inefficiency g in the thermodynamic integration method, a factor that can hinder the determination of convergence of the solvation free energy and its associated uncertainty. Instead, we propose a robust scheme based on Gelman-Rubin convergence diagnostics. We leverage this improved estimation of uncertainties to introduce an innovative accelerated thermodynamic integration method based on Gaussian Process regression. This methodology is applied to the calculation of the solvation free energy of trivalent rare earth elements immersed in ionic liquids, a scenario where the aforementioned challenges render standard approaches ineffective. The proposed method proves effective in computing solvation free energy in situations where traditional thermodynamic integration methods fall short.Comment: Main text: 24 pages, 8 figures; Supporting information: 8 pages, 9 figures, 2 table

    A COMPREHENSIVE GEOSPATIAL KNOWLEDGE DISCOVERY FRAMEWORK FOR SPATIAL ASSOCIATION RULE MINING

    Get PDF
    Continuous advances in modern data collection techniques help spatial scientists gain access to massive and high-resolution spatial and spatio-temporal data. Thus there is an urgent need to develop effective and efficient methods seeking to find unknown and useful information embedded in big-data datasets of unprecedentedly large size (e.g., millions of observations), high dimensionality (e.g., hundreds of variables), and complexity (e.g., heterogeneous data sources, space–time dynamics, multivariate connections, explicit and implicit spatial relations and interactions). Responding to this line of development, this research focuses on the utilization of the association rule (AR) mining technique for a geospatial knowledge discovery process. Prior attempts have sidestepped the complexity of the spatial dependence structure embedded in the studied phenomenon. Thus, adopting association rule mining in spatial analysis is rather problematic. Interestingly, a very similar predicament afflicts spatial regression analysis with a spatial weight matrix that would be assigned a priori, without validation on the specific domain of application. Besides, a dependable geospatial knowledge discovery process necessitates algorithms supporting automatic and robust but accurate procedures for the evaluation of mined results. Surprisingly, this has received little attention in the context of spatial association rule mining. To remedy the existing deficiencies mentioned above, the foremost goal for this research is to construct a comprehensive geospatial knowledge discovery framework using spatial association rule mining for the detection of spatial patterns embedded in geospatial databases and to demonstrate its application within the domain of crime analysis. It is the first attempt at delivering a complete geo-spatial knowledge discovery framework using spatial association rule mining

    Universal QM/MM Approaches for General Nanoscale Applications

    Full text link
    Hybrid quantum mechanics/molecular mechanics (QM/MM) hybrid models allow one to address chemical phenomena in complex molecular environments. However, they are tedious to construct and they usually require significant manual preprocessing and expertise. As a result, these models may not be easily transferable to new application areas and the many parameters are not easy to adjust to reference data that are typically scarce. Therefore, it has been difficult to devise automated procedures of controllable accuracy, which makes such type of modelling far from being standardized or of black-box type. Although diverse best-practice protocols have been set up for the construction of individual components of a QM/MM model (e.g., the MM potential, the type of embedding, the choice of the QM region), no automated procedures are available for all steps of the QM/MM model construction. Here, we review the state of the art of QM/MM modeling with a focus on automation. We elaborate on the MM model parametrization, on atom-economical physically-motivated QM region selection, and on embedding schemes that incorporate mutual polarization as critical components of the QM/MM model. In view of the broad scope of the field, we mostly restrict the discussion to methodologies that build de novo models based on first-principles data, on uncertainty quantification, and on error mitigation with a high potential for automation. Ultimately, it is desirable to be able to set up reliable QM/MM models in a fast and efficient automated way without being constrained by some specific chemical or technical limitations.Comment: 54 pages, 3 figures, 1 tabl

    Shell morphological diversification patterns and molecular systematics of the testate amoebae orders Arcellinida and Euglyphida

    Full text link
    Tesis Doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Biología. Fecha de Lectura: 09-03-2023Para inferir los patrones generales que rigen la biodiversidad es necesario tener una buena representación de los taxones que la componen, y esto incluye también a los organismos más pequeños. Si bien se puede argumentar que el conocimiento de ciertos grupos de plantas y animales puede ser insuficiente, existe un claro vacío de conocimiento en los protistas, especialmente en el suelo y agua dulce. Para resolver esta “laguna” de conocimiento, esta tesis propone centrarse en un grupo particular de protistas que viven principalmente en ecosistemas continentales, las amebas tecadas. Pero para ello, es necesario resolver algunas faltas de conocimiento y desarrollar protocolos específicos para el estudio rápido y eficiente de la biodiversidad en estos taxones. La ausencia de tales protocolos limita enormemente su estudio, así como sus potenciales aplicaciones. Las amebas tecadas son un grupo parafilético de protistas ameboides que tienen en común un “caparazón” o teca autoconstruida. Estos organismos constituyen órdenes dentro de "supergrupos" eucariotas muy poco relacionados; Arcellinida en Amebozoa, Euglyphida y Thecofilosea en Rhizaria y Amphitremida en Stramenopiles (=Heterokonta). Dentro de cada grupo, estos organismos difieren en la composición y forma de las tecas, que constituyen la base de su taxonomía y sistemática. Intuitivamente, los investigadores han clasificado a los organismos asumiendo que morfologías de la teca similares deberían compartir un ancestro común. Esta suposición se basa en la hipótesis de que las tecas están sometidas a una selección neutral, y descarta la posibilidad de convergencias evolutivas entre especies o clados. Sin embargo, el “barcoding” molecular ha desafiado la sistemática y la taxonomía clásicas basadas en la morfología, mostrando patrones de diversificación morfológica de las tecas mucho más complejos y enmarañadas de lo que se pensaba. Estos resultados subrayan la necesidad de aplicar un enfoque molecular para caracterizar los taxones y establecer las relaciones entre ellos. Sin embargo, por el momento, casi todos los datos moleculares disponibles son de un único infraorden dentro de Arcellinida, los Hyalospheniformes. En Euglyphida, sólo el infraorden Euglyphina ha sido (relativamente) bien muestreado molecularmente. El primer objetivo de esta tesis es aumentar la base de datos molecular de las amebas tecadas, centrándose en Arcellinida y Euglyphida, recuperando las regiones genéticas 18S rRNA, COI y NADH. Dentro de estos genes que se han utilizado, el gen nuclear 18S rRNA fue el más conservado. También ha sido el más útil para la reconstrucción de relaciones más profundas, aunque demasiado conservado para discriminar entre especies. Por este motivo, nos centramos en el gen mitocondrial COI, de rápida evolución, que a su vez permite una buena resolución a nivel de especie. Siguiendo los principios de la taxonomía integrativa, también obtuvimos (además de las secuencias moleculares) datos sobre su localización, ecología y morfología de la teca. Esta tesis incluye los primeros datos moleculares para amebas tecadas de la Península Ibérica, tanto en ambientes de agua dulce, suelos, como de sedimentos marinos. También incluyen los primeros datos moleculares para géneros como Plagiopyxis o Trigonopyxis . Estas bases de datos servirán de antecedente para futuros estudios, y serán fundamentales para responder a dos preguntas que estructuran esta tesis: 1) "¿Cómo evoluciona la morfología de la teca en las amebas tecadas?": Entender los patrones de diversificación en las amebas tecadas es esencial para aclarar su taxonomía y sistemática, así como la aplicación de sus rasgos funcionales en los análisis ecológicos. Aquí nos centramos en la familia Cyphoderiidae (Euglyphida), Arcellidae (Arcellinida) y otros taxones de Arcellinida. Evaluamos las relaciones filogenéticas entre los taxones basándonos en datos moleculares y “mapeamos” las morfologías de las tecas y la ecología de los organismos en los árboles filogenéticos. Nuestros resultados muestran correlaciones entre ambientes y morfotipos, aportando varios casos de patrones convergentes. Esto sugiere que algunos rasgos de la teca pueden estar bajo selección positiva. 2) "¿Cómo generar datos moleculares de forma rápida y eficiente en Arcellinida?": La obtención de datos moleculares en amebas tecadas siempre ha sido un problema importante, debido a las dificultades de trabajar con estos organismos (en su mayoría) no cultivables. En consecuencia, la obtención de datos moleculares sobre las amebas tecadas es costosa en términos de tiempo y dinero, lo que explica en gran medida que sigan siendo relativamente poco estudiadas en comparación con otros grupos de protistas. Para resolver este problema, diseñamos un protocolo específico para obtener datos de ADN ambiental de Arcellinida, basado en los datos disponibles. Con este protocolo molecular específico de Arcellinida, se espera obtener cientos de secuencias ambientales mediante técnicas de “secuenciación de alto rendimiento”. Esto permitirá realizar experimentos ecológicos y biogeográficos de gran tamaño, así como estudios de bioindicación, todo lo cual requiere cantidades considerables de datos que eran imposibles de obtener en el pasado. Esta tesis aporta una nueva perspectiva integral de la historia evolutiva y la diversificación morfológica de las tecas de los órdenes Arcellinida y Euglyphida existentes; destacando la importancia de incorporar a los protistas, como las amebas tecadas, a la hora de sacar conclusiones generales que se apliquen a los eucariotas o a la biodiversidad en genera

    VARTOOLS: A Program for Analyzing Astronomical Time-Series Data

    Get PDF
    This paper describes the VARTOOLS program, which is an open-source command-line utility, written in C, for analyzing astronomical time-series data, especially light curves. The program provides a general-purpose set of tools for processing light curves including signal identification, filtering, light curve manipulation, time conversions, and modeling and simulating light curves. Some of the routines implemented include the Generalized Lomb-Scargle periodogram, the Box-Least Squares transit search routine, the Analysis of Variance periodogram, the Discrete Fourier Transform including the CLEAN algorithm, the Weighted Wavelet Z-Transform, light curve arithmetic, linear and non-linear optimization of analytic functions including support for Markov Chain Monte Carlo analyses with non-trivial covariances, characterizing and/or simulating time-correlated noise, and the TFA and SYSREM filtering algorithms, among others. A mechanism is also provided for incorporating a user's own compiled processing routines into the program. VARTOOLS is designed especially for batch processing of light curves, including built-in support for parallel processing, making it useful for large time-domain surveys such as searches for transiting planets. Several examples are provided to illustrate the use of the program.Comment: 83 pages, 5 figures, accepted for publication in Astronomy and Computing, code available at http://www.astro.princeton.edu/~jhartman/vartools.htm

    In silico characterization of the family of PARP-like poly(ADP-ribosyl)transferases (pARTs)

    Get PDF
    BACKGROUND: ADP-ribosylation is an enzyme-catalyzed posttranslational protein modification in which mono(ADP-ribosyl)transferases (mARTs) and poly(ADP-ribosyl)transferases (pARTs) transfer the ADP-ribose moiety from NAD onto specific amino acid side chains and/or ADP-ribose units on target proteins. RESULTS: Using a combination of database search tools we identified the genes encoding recognizable pART domains in the public genome databases. In humans, the pART family encompasses 17 members. For 16 of these genes, an orthologue exists also in the mouse, rat, and pufferfish. Based on the degree of amino acid sequence similarity in the catalytic domain, conserved intron positions, and fused protein domains, pARTs can be divided into five major subgroups. All six members of groups 1 and 2 contain the H-Y-E trias of amino acid residues found also in the active sites of Diphtheria toxin and Pseudomonas exotoxin A, while the eleven members of groups 3 – 5 carry variations of this motif. The pART catalytic domain is found associated in Lego-like fashion with a variety of domains, including nucleic acid-binding, protein-protein interaction, and ubiquitylation domains. Some of these domain associations appear to be very ancient since they are observed also in insects, fungi, amoebae, and plants. The recently completed genome of the pufferfish T. nigroviridis contains recognizable orthologues for all pARTs except for pART7. The nearly completed albeit still fragmentary chicken genome contains recognizable orthologues for twelve pARTs. Simpler eucaryotes generally contain fewer pARTs: two in the fly D. melanogaster, three each in the mosquito A. gambiae, the nematode C. elegans, and the ascomycete microfungus G. zeae, six in the amoeba E. histolytica, nine in the slime mold D. discoideum, and ten in the cress plant A. thaliana. GenBank contains two pART homologues from the large double stranded DNA viruses Chilo iridescent virus and Bacteriophage Aeh1 and only a single entry (from V. cholerae) showing recognizable homology to the pART-like catalytic domains of Diphtheria toxin and Pseudomonas exotoxin A. CONCLUSION: The pART family, which encompasses 17 members in the human and 16 members in the mouse, can be divided into five subgroups on the basis of sequence similarity, phylogeny, conserved intron positions, and patterns of genetically fused protein domains
    corecore