Clément BERNARD soutient sa thèse de doctorat le lundi 6 octobre 2025 à 14h, petit amphithéâtre du bâtiment IBGBI, Université Évry Paris-Saclay.
La séance est également diffusée en ligne, via le lien : https://univ-evry-fr.zoom.us/j/94635690967?pwd=rgl9Mq5ftJEexjj|ViXj7xsa1VT5j6.1.
Titre: Méthodes computationnelles basées sur l’apprentissage profond pour la prédiction des structures 3D d’ARN.
Résumé
Les ARN sont, comme les protéines, des molécules biologiques jouant des rôles essentiels à divers stades de la vie d’un organisme et impliqués dans diverses maladies. Déterminer leur structure, notamment 3D, est un enjeu essentiel pour mieux comprendre leur fonction. Récemment, Google DeepMind a proposé une méthode appelée AlphaFold, pour la prédiction de la structure 3D des protéines basée sur l’apprentissage profond, qui a révolutionné le domaine en montrant une efficacité des prédictions très largement au-dessus de l’état de l’art. Cependant, les molécules d’ARN et de protéines diffèrent fortement en termes de structure et de dynamique, ce qui rend non trivial l’adaptation directe des méthodes développées pour les protéines aux ARN. AlphaFold, AlphaFold 2, ainsi que sa nouvelle version AlphaFold 3, qui prédit également la structure 3D des ARN, s’appuient fortement sur les alignements de séquences multiples (MSA), qui sont coûteux à calculer et ne sont pas toujours disponibles, en particulier pour les ARN.
Dans cette thèse, nous visons à explorer la prédiction de la structure 3D de l’ARN sans utiliser l’information issue des alignements multiples. Nous cherchons à développer des méthodes pour prédire les structures 3D des ARN à partir uniquement de la séquence. Pour cela, nous utilisons des méthodes d’apprentissage profond, et en particulier des modèles de langage, afin de faire le lien entre les séquences et les caractéristiques structurales. En exploitant des modèles de langage préentraînés sur un grand nombre de séquences d’ARN, nous pouvons apprendre des représentations riches des caractéristiques structurales de l’ARN, et ainsi prédire leur structure 3D.
Dans cette thèse, nous visons à explorer la prédiction de la structure 3D de l’ARN sans utiliser l’information issue des alignements multiples. Nous cherchons à développer des méthodes pour prédire les structures 3D des ARN à partir uniquement de la séquence. Pour cela, nous utilisons des méthodes d’apprentissage profond, et en particulier des modèles de langage, afin de faire le lien entre les séquences et les caractéristiques structurales. En exploitant des modèles de langage préentraînés sur un grand nombre de séquences d’ARN, nous pouvons apprendre des représentations riches des caractéristiques structurales de l’ARN, et ainsi prédire leur structure 3D.
Le travail de cette thèse est divisé en trois contributions principales. La première, appelée RNAdvisor, est un outil qui intègre les outils d’évaluation de la structure 3D des ARN les plus récents pour évaluer de manière exhaustive les structures 3D des ARN, avec et sans références expérimentales. La deuxième contribution, State-of-the-RNArt, est un benchmark des méthodes de prédiction de la structure 3D de l’ARN les plus récentes, mettant en évidence les limites et les défis des méthodes actuelles. Elle est suivie d’une analyse plus détaillée des limites d’AlphaFold 3, la dernière version d’AlphaFold adaptée à la prédiction de la structure 3D de l’ARN. La troisième contribution, RNA-TorsionBERT, est une méthode d’apprentissage profond qui prédit les angles de torsion des structures 3D de l’ARN à partir de la séquence. Elle s’appuie sur un modèle de langage pour mettre en correspondance les séquences avec les caractéristiques de la structure. Cette méthode est étendue à une nouvelle fonction de scoring, TorsionBERT- MCQ, qui permet d’évaluer la qualité des structures 3D de l’ARN dans l’espace des torsions. Ce travail constitue une étape vers le développement de méthodes d’apprentissage profond pour la prédiction de la structure 3D des ARN, en utilisant uniquement des informations sur la séquence et sans s’appuyer sur des alignements de séquences multiples coûteux.
Composition du jury de thèse/Composition of the doctoral thesis jury
Membre du jury | Titre | Lieu d’exercice | Fonction dans le jury |
---|---|---|---|
Frédéric CAZALS | Directeur de Recherche | Centre Inria d’Université Côte d’Azur | Rapporteur |
Florence D’ALCHE-BUC | Professeure | Institut Polytechnique de Paris, Telecom Paris | Examinatrice |
Alain DENISE | Professeur des Universités | Université Paris-Saclay, LISN | Examinateur |
Pierre GEURTS | Full professor | Université de Liège | Rapporteur |
Sahar GHANNAY | Maître de conférences | Université Paris-Saclay, LISN | Co-encadrante |
Sebastian KMIECIK | Full professor | University of Warsaw | Rapporteur |
Guillaume POSTIC | Maître de Conférences | Université Evry Paris-Saclay | Co-encadrant |
Elena RIVAS | Senior Research Fellow | Harvard University | Examinatrice |
Marta SZACHNIUK | Full professor | Poznan University of Technology | Membre invitée |
Fariza TAHI | Professeure des Universités | Université Evry Paris-Saclay | Directrice de thèse |
Tomasz ZOK | Associate professor | Poznan University of Technology | Examinateur |
Clément BERNARD defends his doctoral thesis on Monday October 6th, 2025 at 2 pm, « petit amphithéâtre » of the IBGBI building, Évry Paris-Saclay University.
The session is also available online, via the link: https://univ-evry-fr.zoom.us/j/94635690967?pwd=rgl9Mq5ftJEexjj|ViXj7xsa1VT5j6.1 .
Title: Computational methods based on deep learning for the prediction of RNA 3D structures
Abstract:
RNAs are, like proteins, biological molecules that play essential roles at various stages in the life of an organism and are involved in various diseases. Determining their structure, especially 3D, is essential to understand their function better. Recently, Google DeepMind proposed a method called AlphaFold, for the prediction of the 3D structure of proteins based on deep learning, which revolutionized the field by showing a high outperformance compared to the state-of-art. However, RNA and protein molecules differ significantly in structure and dynamics, making it non-trivial to apply protein- based methods directly to RNA. AlphaFold, AlphaFold 2, as well as AlphaFold 3, its new version that also predicts RNA 3D structure, rely heavily on multiple sequence alignments (MSAs) as input, which are expensive to compute and not always available, especially for RNAs.
In this thesis, we aim to get ride of the MSA information for the prediction of RNA 3D structures. We seek to develop methods to predict RNA 3D structures from sequence information only. For this, we leverage deep learning methods and particularly language-based models
to map sequences to structure features. By using language-based models pretrained on a large set of RNA sequences, we can learn RNA structural features and then predict the 3D structure.
In this thesis, we aim to get ride of the MSA information for the prediction of RNA 3D structures. We seek to develop methods to predict RNA 3D structures from sequence information only. For this, we leverage deep learning methods and particularly language-based models
to map sequences to structure features. By using language-based models pretrained on a large set of RNA sequences, we can learn RNA structural features and then predict the 3D structure.
The work in this thesis is separated into three main contributions. The first, called RNAdvisor, is a tool that wraps the state-of-the-art RNA 3D structure assessment tools to comprehensively evaluate RNA 3D structures, both with and without experimental references. The second contribution, State-of-the-RNArt, is a benchmark of the state-of-the-art RNA 3D structure prediction methods, highlighting current methods’ limitations and challenges. It is followed by a more detailed analysis of the limitations of AlphaFold 3. The third contribution, RNA-TorsionBERT, is a deep learning method that predicts the torsion angles of RNA 3D structures from the sequence, which are an important feature of RNA 3D structures. It leverages a language-based model to map sequences to structure features. It is extended to a new scoring function, TorsionBERT-MCQ, that can assess the quality of RNA 3D structures in torsional space. This work is a step towards the development of deep learning methods for RNA 3D structure prediction, using only sequence information and not relying on costly multiple-sequence alignments.
- Date : lundi 06/10/2025, 14h
- Lieu : Petit Amphithéâtre du bâtiment IBGBI Université Évry Paris-Saclay. La séance est également diffusée en ligne, via le lien :
- Doctorant : Clément BERNARD, Université Évry Paris-Saclay, IBISC équipe AROBAS
- Direction de thèse : Fariza TAHI (PR Univ. Évry, IBISC équipe AROBAS, directrice de thèse), Guillaume POSTIC (MCF Univ. Évry, IBISC équipe AROBAS, co-encadrant de thèse), Sahar GHANNAY -MCF Univ Paris-Saclay, LISN, co-encadrante de thèse)