Towards accurate RNA structural evaluation : a study of RNA tertiary structural evaluation and ARES performance improvement

Abstract

L’évaluation précise des structures 3D de l’ARN reste un défi fondamental en biologie computationnelle, en raison de la complexité et de la variabilité du repliement de l’ARN. L’objectif de cette thèse est d’explorer comment le problème de la sélection des structures d’ARN peut être abordé en utilisant l’Atomic Rotationally Equivariant Scorer (ARES), un modèle de réseau neuronal conçu pour l’évaluation des structures d’ARN, comme étude de cas. Ce travail vise à examiner les défis et opportunités pour améliorer l’évaluation des structures 3D de l’ARN, en se concentrant sur trois axes d’amélioration grâce à l’utilisation d’ARES : (1) l’utilisation d’un outil alternatif de génération de structures : MC-SYM au lieu de FARFAR2, (2) l’élargissement du jeu de données d’entraînement avec une représentation plus large des familles et motifs d’ARN pour capturer des caractéristiques structurelles variées, et (3) le perfectionnement de la métrique d’évaluation en passant de la Déviation Quadratique Moyenne (RMSD) à l’Indice de Déformation (DI), qui offre une évaluation plus nuancée de la précision structurelle. Les résultats de cette étude ont mené à plusieurs enseignements clés sur l’évaluation des structures d’ARN à l’aide d’ARES. En remplaçant FARFAR2 par MC-SYM pour générer le jeu de données, nous avons amélioré les performances du modèle pour certains ARN. De plus, l’utilisation de MC-SYM a permis de générer des structures 3D pour un plus grand nombre de motifs d’ARN, surmontant ainsi les limitations liées au temps d’exécution long de FARFAR2. En outre, le remplacement du RMSD par l’Indice de Déformation (DI) comme métrique d’évaluation a conduit à d’autres améliorations, les prédictions les mieux classées montrant une meilleure précision dans l’approximation des structures correctes. Ces résultats mettent en évidence la capacité du DI à fournir une évaluation plus nuancée et informative par rapport au RMSD. Sur le plan des limitations, aucun des modèles n’a systématiquement atteint une forte corrélation entre les scores prédits et les valeurs RMSD réelles, soulignant les défis persistants pour apprendre efficacement les caractéristiques structurelles de l’ARN. Cela souligne la nécessité de jeux de données d’entraînement plus diversifiés et standardisés pour améliorer la robustesse et la généralisation des modèles. Ce travail met en lumière des domaines d’exploration futurs, visant à améliorer l’iden- tification des modèles structurels plus proches des conformations natives de l’ARN et à ouvrir la voie à de nouvelles avancées dans la modélisation de l’ARN. Mots-clés : Structure 3D de l’ARN, biologie computationnelle, Atomic Rotationally Equivariant Scorer (ARES), outils de génération de structures, indice de déformation (DI), écart quadratique moyen (RMSD), repliement de l’ARN, évaluation structurelle, apprentissage automatique, réseaux de neurones.The accurate evaluation of RNA 3D structures remains a fundamental challenge in compu- tational biology, driven by the complexity and variability of RNA folding. The objective of this thesis is to explore how the RNA structure selection problem can be addressed using the Atomic Rotationally Equivariant Scorer (ARES), a neural network model de- signed for RNA structural evaluation, as a case study. This work aims to investigate the challenges and opportunities in improving RNA 3D structure evaluation, focusing on three key areas of improvement by utilizing ARES: (1) employing an alternative struc- ture generation tool: MC-SYM instead of FARFAR2, (2) expanding the training dataset with a broader representation of RNA families and motifs to capture diverse structural features, and (3) refining the evaluation metric by transitioning from the traditional Root Mean Square Deviation (RMSD) to the Deformation Index (DI), which provides a more nuanced assessment of structural accuracy. The results of this study revealed several key insights into RNA structure evalua- tion using ARES. By replacing FARFAR2 with MC-SYM to generate the dataset, we improved the model’s performance for certain RNAs. Moreover, using MC-SYM en- abled the generation of 3D structures for a larger number of RNA motifs, overcoming the limitations posed by the long runtime of FARFAR2. Additionally, replacing RMSD with the Deformation Index (DI) as the evaluation metric led to further improvements, with high-ranking predictions demonstrating better accuracy in approximating the cor- rect structures. These findings underscore DI’s ability to provide a more nuanced and informative evaluation compared to RMSD. On the limitations side, neither model con- sistently achieved a high correlation between predicted scores and actual RMSD values, highlighting persistent challenges in effectively learning RNA structural features. This underscores the necessity for more diverse and standardized training datasets to enhance model robustness and generalization. This work highlights areas for future exploration, aiming to improve the identification of structural models closer to native RNA conformations and pave the way for further advancements in RNA modeling. Keywords: RNA 3D structure, computational biology, Atomic Rotationally Equi- variant Scorer (ARES), structure generation tools, Deformation Index (DI), Root Mean Square Deviation (RMSD), RNA folding, structural evaluation, machine learning, neural networks

Similar works

Full text

thumbnail-image

Papyrus Université de Montréal

redirect
Last time updated on 03/11/2025

This paper was published in Papyrus Université de Montréal.

Having an issue?

Is data on this page outdated, violates copyrights or anything else? Report the problem now and we will take corresponding actions after reviewing your request.