Quoc Khang LE soutient sa thèse de doctorat le mercredi 17 décembre 2025 à 14h, Grand Amphithéâtre du bâtiment IBGBI, Université Évry Paris-Saclay.
Titre: Segmentation des structures 3D d’ARN par des méthodes hybrides d’apprentissage supervisé/non supervisé.
Résumé
Cette thèse étend le concept de domaines tridimensionnels (3D) des protéines aux ARN et propose des méthodes informatiques permettant de segmenter les structures 3D d’ARN en de tels domaines. Ces derniers sont définis comme des unités structurales et fonctionnelles constitutives des machines moléculaires dont dépendent l’architecture et l’activité de la cellule. Compacts, stables et souvent capables de se replier, bouger et fonctionner de manière autonome, les domaines représentent une composante essentielle de nombreuses études sur les protéines. Leur modularité est également exploitée en bio-ingénierie pour concevoir de nouvelles protéines par recombinaison de domaines. En pratique, les domaines 3D constituent la base des approches détermination in vitro, ou de prédiction in silico, des repliements de protéines. Ces derniers sont classifiés d’après leur contenu en domaines 3D, dans des bases de données occupant une place centrale en biologie structurale et en bioinformatique. Depuis trois décennies, l’importance des domaines 3D et le besoin de les délimiter de manière automatisée ont motivé le développement d’algorithmes de partitionnement des structures.
Dans le cas des ARN, des domaines ont jusqu’à présent été définis selon l’identité de séquence, la conservation de la structure secondaire ou la similarité fonctionnelle. Ces annotations sont disponibles dans des ressources comme la base Rfam, équivalent de Pfam pour les protéines. Cependant, aucune définition stéréochimique des domaines d’ARN, en tant que régions compactes et spatialement distinctes de la structure 3D, n’avait été proposée. Cette absence limite la compréhension des acides ribonucléiques en tant que machines moléculaires, notamment dans le contexte des ARN longs non codants, qui sont susceptibles de comporter des régions structurellement indépendantes.
Nous avons d’abord exploré l’application d’algorithmes de regroupement (clustering) aux coordonnées atomiques des macromolécules d’ARN. Les méthodes fondées sur la densité se sont révélées les plus adaptées, car elles sont non-paramétriques, robustes aux valeurs aberrantes et capables de détecter des groupes de formes variées. Parmi elles, Mean Shift a donné les résultats les plus prometteurs, mais a nécessité le développement de huit règles de post-traitement pour affiner la segmentation. Dans une étude ultérieure, la levée de la contrainte de robustesse aux valeurs aberrantes a permis d’étendre le banc d’essai à d’autres techniques de clustering. Ces tests ont ainsi mis en évidence notre algorithme de regroupement hiérarchique bidirectionnel (BiHC) comme étant la méthode la plus performante pour segmenter les structures 3D d’ARN. Un pipeline hybride à double sortie, combinant Mean Shift et BiHC, a également été développé et rendu accessible via l’interface web du serveur RNA3DClust.
Ces travaux d’apprentissage non supervisé ont nécessité la création de jeux de données non redondants d’annotations de domaines 3D d’ARN, servant de référence pour l’ajustement des hyperparamètres des algorithmes. Nous avons aussi construit des jeux de test indépendants pour évaluer les performances des différentes méthodes. Enfin, nous avons soulevé la question de la meilleure métrique pour mesurer la qualité des segmentations de structures 3D d’ARN. Pour y répondre, nous avons mené une étude comparative des fonctions de score existantes, qui a révélé plusieurs limitations, y compris parmi les plus répandues, parfois sources de résultats trompeurs. Cela nous a conduits à développer une nouvelle métrique — la Chain Segment Distance (CSD) — offrant une évaluation plus équilibrée et plus fiable, en compromis entre les mesures existantes.
Composition du jury de thèse/Composition of the doctoral thesis jury
| Membre du jury | Titre | Lieu d’exercice | Fonction dans le jury |
|---|---|---|---|
| Mathilde CARPENTIER | Maître de Conférences | Sorbonne Université | Rapporteure |
| Frédéric GUYON | Ingénieur de Recherche | Université Paris Cité | Rapporteur |
| Anne-Claude CAMPROUX | Professeure des Universités | Université Paris Cité | Examinatrice |
| Gautier MOROY | Professeur des Universités | Université Paris Cité | Examinateur |
| Mustapha LEBBAH | Professeur des Universités | UVSQ | Examinateur |
| Isaure CHAUVOT DE BEAUCHÊNE | Chargée de Recherche CNRS | LORIA | Membre invitée |
| Fariza TAHI | Professeure des Universités | Université Évry Paris-Saclay | Directrice de thèse |
| Éric ANGEL | Professeur des Universités | Université Évry Paris-Saclay | Co-encadrant de thèse |
| Guillaume POSTIC | Maître de Conférences | Université Évry Paris-Saclay | Co-encadrant de thèse |
Quoc Khang LE will defend his doctoral thesis on Wednesday, December 17, 2025, at 2 p.m., in the Grand Amphitheater of the IBGBI building, Université Évry Paris-Saclay.
The session will also be broadcast online via the following link: https://univ-evry-fr.zoom.us/j/94899555228?pwd=GohE2ex7TWZyqIjHBhfrIMEsKPJ1MN.1
TITLE: RNA 3D structure segmentation through hybrid supervised/unsupervised learning methods
Abstract
This thesis extends the concept of three-dimensional (3D) domains from proteins to RNAs and introduces computational methods to segment RNA 3D structures into such domains. These domains are defined as the structural and functional building blocks of molecular machines on which cellular architecture and activity depend. Domains are typically compact, stable, and often capable of folding, moving, functioning, and evolving independently. Consequently, delineating domains is a standard preliminary step in many protein studies. The modularity of these substructures is also exploited in bioengineering to design new proteins with novel functions, by recombining domains in different arrangements. In practice, 3D domains serve as a foundation for divide-and-conquer strategies for both in vitro determination and in silico prediction of protein structure. Protein folds are classified according to their domain composition, in databases that are central to structural biology and bioinformatics. Over the past three decades, the importance of 3D domains and the need for their automated delineation have driven the development of numerous structure-partitioning algorithms.
In the case of RNA, domains have been defined based on sequence identity, secondary structure conservation, or functional similarity. The resulting annotations are available in resources such as Rfam, the RNA counterpart of the protein domain database Pfam. However, no stereochemical definition of RNA domains as compact and spatially distinct regions of the 3D structure has yet been proposed. This missing level of analysis limits our understanding of ribonucleic acids as molecular machines, particularly in the emerging context of long non-coding RNAs (lncRNAs), whose length suggests they may contain such structurally independent regions.
To implement the first method for segmenting RNA into 3D domains, we explored the application of clustering algorithms to atomic coordinates. Density-based clustering was identified as the most suitable approach, being non-parametric, robust to outliers, and capable of detecting clusters with irregular shapes and sizes. Among these algorithms, Mean Shift produced the most promising results; however, direct application proved insufficient, requiring the development of eight post-processing rules to refine the segmentation. In a subsequent study, we accounted for the fact that not all pairs of RNA 3D domains are connected by linker regions. We therefore removed the requirement for outlier robustness, which broadened the set of candidates to include other types of clustering techniques. This benchmarking identified our bidirectional hierarchical clustering (BiHC) algorithm as the most effective method for segmenting RNA 3D structures. To take advantage of the complementarity between Mean Shift and BiHC, we combined them into a dual-output hybrid pipeline, released as the RNA3DClust web server.
All these developments in unsupervised learning required the creation of non-redundant datasets of RNA 3D domain annotations, which served as ground truth for tuning the hyperparameters of the clustering algorithms. We also constructed independent test datasets of RNA 3D domains to evaluate method performance. Finally, these benchmarkings raised the question of which metrics best assess RNA 3D structure segmentation quality. In response, we conducted a survey of existing scoring functions and identified several limitations, even among the most widely used ones, which can occasionally yield misleading results. This motivated the development of a new metric—the Chain Segment Distance (CSD)—designed to provide a more balanced and reliable assessment, serving as a compromise between existing evaluation measures.
- Date : mercredi 17/12/2025, 14h
- Lieu : Grand Amphithéâtre du bâtiment IBGBI Université Évry Paris-Saclay. La séance est également diffusée en ligne, via le lien : https://univ-evry-fr.zoom.us/j/94899555228?pwd=GohE2ex7TWZyqIjHBhfrIMEsKPJ1MN.1
- Doctorant : Quoc Khang LE, Université Évry Paris-Saclay, IBISC équipe AROBAS
- Direction de thèse : Fariza TAHI (PR Univ. Évry, IBISC équipe AROBAS), Directrice de thèse; Éric ANGEL (PR Univ. Évry, IBISC équipe AROBAS) et Guillaume POSTIC (MCF Univ. Évry, IBISC équipe AROBAS), co-encadrants de thèse.