Salah-eddine LAIDOUDI soutient sa thèse de doctorat le lundi 17 novembre 2025 : « Deep Learning pour l’immersion et l’interaction 3D naturelle dans les expériences de réalité mixte intelligente » (see English version above)

/, Equipe IRA2, Evénements, Recherche, Soutenance de thèse/Salah-eddine LAIDOUDI soutient sa thèse de doctorat le lundi 17 novembre 2025 : « Deep Learning pour l’immersion et l’interaction 3D naturelle dans les expériences de réalité mixte intelligente » (see English version above)

Salah-eddine LAIDOUDI soutient sa thèse de doctorat le lundi 17 novembre 2025 : « Deep Learning pour l’immersion et l’interaction 3D naturelle dans les expériences de réalité mixte intelligente » (see English version above)

Salah-eddine LAIDOUDI soutient sa thèse de doctorat le lundi 17 novembre 2025, 14h, Université d’Évry Site Pelvoux, amphithéâtre Yasmina Bestaoui Bx30.

Titre: Deep Learning pour l’immersion et l’interaction 3D naturelle dans les expériences de réalité mixte intelligente.

Mots-clés

Réalité Mixte, Interaction 3D, Détection d’objets, Réalité augmentée

Résumé

La réalité mixte vise à fusionner les mondes réel et virtuel afin que les objets numériques paraissent présents et manipulables directement. Deux grands défis subsistent : la compréhension de scène en temps réel à 30–60 fps et l’interaction 3D naturelle avec les mains, le tout sous des contraintes strictes de latence et de consommation énergétique. Les approches récentes – transformeurs sans ancres, attention multi-échelle, réseaux à décalage temporel – atteignent une grande précision mais dépassent souvent la limite d’environ 30 ms sur des appareils autonomes. Cette thèse s’intéresse donc à la co-conception entre modèles, données et déploiement, afin qu’un dispositif de réalité mixte mobile assure à la fois une détection fiable et une interaction mains libres, tout en respectant des contraintes strictes de temps réel (< 30 ms) et de calcul (≈ 10 GFLOPs), la seule compression étant en général insuffisante.

Un détecteur léger combinant un petit réseau convolutionnel et un décodeur transformeur compact (7,8 M de paramètres, 7,3 GFLOPs) a été entraîné sur un jeu de données d’objets en intérieur (19 162 images, 28 classes). Pour mieux capter les petites cibles et les surfaces peu texturées sans augmenter le budget de calcul, un bloc d’attention multi-échelle a été ajouté avec des noyaux 3/5/7 px et une passerelle de type squeeze-excite, inséré trois niveaux pour un surcoût ≤ 5 % en FLOPs. Pour évaluer la robustesse, un corpus synthétique d’astronomie (40 000 rendus) a permis une adaptation sim-to-real, offrant un gain de +3 AP sur des images réelles sans dégrader le temps d’inférence.

Pour l’interaction manuelle, les réseaux 3D denses (I3D, SlowFast) offrent une excellente précision mais nécessitent des dizaines de GFLOPs et une mémoire importante ; les variantes légères basées sur le décalage temporel sont plus efficaces mais plafonnent autour de 90 % de précision Top-1. Un modèle MobileNet-TSM compact a donc été conçu pour isoler le mouvement via des différences d’images avant/arrière et entraîné de bout en bout sur le jeu 20BN-Jester (148 000 clips, 27 gestes). Il maintient environ 95 % de précision Top-1, occupe ~15 Mo et dépasse largement les 30 fps sur mobile avec une latence inférieure à 10 ms.

À complexité comparable, les résultats sur le jeu Indoor-Objects-28 montrent une mAP50:95 de 42 % pour 12 ms d’inférence moyenne ; YOLOv8-n atteint 40,4 % en 13 ms, tandis que RT-DETR atteint 45 % mais reste environ 15 fois plus lent (184 ms). Sur MS-COCO, l’ajout de l’attention multi-échelle porte la mAP50:95 à 41,3 % pour 7,6 GFLOPs, soit +4 points pour un temps d’exécution comparable à YOLOv8-n, alors que RT-DETR-R18 (46,5 %) dépasse l’enveloppe de calcul visée (~15 GFLOPs). Pour les gestes, le modèle atteint 95,3 % de précision Top-1 avec seulement 0,084 GFLOPs et une latence < 10 ms, surpassant MobileNet-TSM de 5,5 % tout en consommant dix fois moins de ressources que les réseaux 3D de référence. Après quantification INT8 et intégration dans Unity/Sentis, l’ensemble de la chaîne fonctionne en continu à cadence temps réel sur du matériel XR grand public.

Une étude utilisateur a mis en évidence des gains perçus en vitesse et en confort d’utilisation.

Pour la suite, la fusion des données RGB, profondeur et IMU, l’ajout de têtes de détection en vocabulaire ouvert inspirées de CLIP, la segmentation continue des gestes, l’assistance contextuelle via modèles de langage et un basculement adaptatif entre INT8 et FP16 constituent des pistes prometteuses pour améliorer encore la robustesse tout en respectant les contraintes de calcul et d’énergie.

Composition du jury de thèse/Doctoral thesis jury composition

Membre du jury Titre Lieu d’exercice Fonction dans le jury
Mehdi AMMI Professeur des Universités Université Paris 8 Examinateur
Hanane AZZAG Professeure des Universités Université Sorbonne Paris Nord Examinatrice
Elhadj BENKHELIFA Full Professor Staffordshire University Rapporteur
Madjid MAIDI Maître de Conférences HDR Université Paris 8 Co-encadrant de thèse
Samir OTMANE Professeure des Universités Université Évry Paris-Saclay Directeur de thèse
Titus ZAHARIA Professeur Institut Polytechnique de Paris / TELECOM SudParis Rapporteur

Salah-eddine LAIDOUDI defends his doctoral thesis on thirsday, November 17, 2025, 2pm, University of Évry, Pelvoux Site, Yasmina Bestaoui Bx30 Amphitheather.

Title : Deep Learning for Immersion and Natural 3D Interaction within Intelligent Mixed Reality Experiences.

Keywords

mixed reality, 3D interaction, deep learning, object detection, AR

Abstract

Mixed Reality aims to merge real and virtual worlds so that digital objects feel present and directly manipulable. Two hurdles persist: real-time scene understanding at 30–60 fps and natural 3D interaction with bare hands under tight latency and power constraints. Recent anchor-free transformers, multi-scale attention, and temporal-shift networks are accurate but often exceed the 30 ms budget on standalone devices. This thesis asks how to co-design models, data, and deployment so a mobile MR device achieves reliable detection and hands-free interaction within strict real-time (< 30 ms) and compute (≈ 10 GFLOPs) envelopes, since compression alone rarely suffices.

We introduce SSAFT (Single-Shot Anchor-Free Transformer), coupling a shallow CNN backbone with a compact transformer decoder (7.8 M parameters; 7.3 GFLOPs) trained on Indoor-Objects-28 (19,162 images, 28 classes). To better capture small and low-texture targets under the same budget, we add DFMA (Dual-Focus Multi-Scale Attention), a depthwise 3/5/7-pixel block with squeeze–excite gating inserted at three stages for ≤ 5% FLOPs overhead. To probe robustness, a synthetic astronomy corpus (40,000 renders) enables sim-to-real adaptation, yielding +3 AP on real astrophotographic images without violating runtime constraints.

For hand interaction, dense 3D networks (I3D, SlowFast) reach high accuracy but need tens of GFLOPs and large memory; lightweight temporal-shift variants improve efficiency yet plateau near 90% Top-1 accuracy. We therefore design G-DiTSM, a compact MobileNet-based temporal-shift model that isolates motion via forward and backward frame differences, trained end-to-end on 20BN-Jester (148k clips, 27 gestures). It preserves around 95% Top-1 accuracy, fits in approximately 15 MB, and runs comfortably above 30 fps on mobile devices with sub-10 ms latency.

Under fair settings, Indoor-Objects-28 results show SSAFT at 42.0% mAP50:95 with 12 ms average inference; YOLOv8-n attains 40.4% at 13 ms, while RT-DETR reaches 45% but is about 15× slower (184 ms). On MS-COCO, adding DFMA lifts mAP50:95 to 41.3% at 7.6 GFLOPs—about +4 points at a runtime comparable to YOLOv8-n— whereas RT-DETR-R18 (46.5%) exceeds the target compute (~15 GFLOPs). For gestures, G-DiTSM achieves 95.3% Top-1 accuracy with just 0.084 GFLOPs and < 10 ms latency, outperforming MobileNet-TSM by 5.5% while using an order of magnitude fewer resources than 3D baselines.

After INT8 quantization and Unity/Sentis integration, the full stack sustains continuous real-time throughput on consumer XR hardware; a user study indicates corresponding gains in perceived speed and usability. Looking ahead, RGB–depth–IMU fusion, CLIP-style open-set detection, continuous-stream gesture segmentation, LLM-based context, and adaptive INT8/FP16 switching offer principled paths to broader robustness while keeping compute and energy budgets in check.

  • Date: lundi 17/11/2025, 14h
  • Lieu: Université d’Évry, Site Pelvoux, Amphithéâtre Yasmina Bestaoui Bx30, 36 rue du Pelvoux, 91080 ÉVRY-COURCOURONNES
  • Doctorant : Salah-Eddine LAIDOUDI (Université Évry Paris-Saclay, IBISC équipe IRA2)
  • Direction de thèse: Samir OTMANE (PR IUT d’Évry, IBISC équipe IRA2), directeur de thèse ; Madjid MAIDI (MCF Univiversité Paris 8), co-encadrant de thèse
WP to LinkedIn Auto Publish Powered By : XYZScripts.com