Loss auxiliaire de Distance Map pour la segmentation de tumeurs cérébrales

Analyse centrée fragments et plafond de saturation du filtre post-hoc CC-consensus

BraTS 2023 GLI · nnU-Net v2 · MedNeXt-B · 1196 patients en validation

Guillaume Cassez · Recherche indépendante 2026

Ouvrir le viewer 3D interactif
1196 patients, 4 modèles (Vérité terrain / Baseline / DistMap / CC-Consensus), vue sagittale, contrôles temps réel

Résumé

Ce projet a démarré avec une idée simple : les losses auxiliaires de type distance map ont amélioré la segmentation sur d'autres tâches médicales (organes abdominaux, foie, atrium cardiaque — Ma MIDL 2020 ; Xue AAAI 2020), la même approche devrait aider sur BraTS 2023 GLI. L'histoire qui s'est écrite s'est avérée plus intéressante que prévu — le vrai gain n'est pas là où on l'attendait.

Le présent travail étudie l'usage d'une loss auxiliaire de Signed Distance Transform (SDT) au-dessus de MedNeXt-B / nnU-Net v2 pour la segmentation 3D de tumeurs cérébrales sur BraTS 2023 GLI. À convergence sur 1196 patients en cross-validation 5-fold, la tâche SDT n'améliore pas significativement le Dice (Δ Dice avg = +0,09 pp, Wilcoxon p > 0,25 par région), mais elle introduit un nouveau mode de défaillance : des composantes connexes isolées fallacieuses (« fragments ») absentes de la vérité terrain, surtout sur NCR et ED.

On propose un filtre de consensus au niveau des composantes connexes (CC-consensus filter), sans paramètre : pour chaque classe, on supprime de la prédiction DistMap toute composante dont le masque même-classe ne recouvre aucun voxel Baseline. Sur 1196 patients en CV 5-fold, le filtre réduit les fragments NCR de 66 % (Wilcoxon p < 10⁻¹⁸⁹), ED de 52 %, ET de 33 % sans coût Dice, et améliore significativement le HD95 NCR (4,86 → 4,48 mm, p = 5,7 × 10⁻¹⁴).

1. Introduction

La segmentation de tumeurs cérébrales sur IRM multi-modalités (challenge BraTS) est dominée ces dernières années par des dérivés de nnU-Net. Les équipes les plus performantes raffinent le backbone (MedNeXt, Swin-UNETR) tout en laissant la loss d'entraînement quasi inchangée : Dice + cross-entropy. En parallèle, la régression auxiliaire de distance maps est régulièrement proposée pour rendre le réseau sensible à la forme, avec des résultats empiriques mitigés.

3. Méthodes

Backbone : MedNeXt-B (Roy MICCAI 2023) ré-implémenté dans nnU-Net v2 avec le plan nnUNetPlans_96GB_mednext (patch 128³, BS 2, BF16, RTX PRO 6000). Tâche auxiliaire SDT : tête Conv3d(32→3) + tanh, loss MSE sur la SDT signée par classe (NCR / Edema / ET), λ = 1. Filtre CC-consensus : à partir de la prédiction DistMap, pour chaque classe, supprimer toute composante connexe (26-connectivité) dont le masque même-classe n'a aucun voxel commun avec la prédiction Baseline.

4. Données et évaluation

BraTS 2023 GLI : 1251 patients adulte glioma, 4 modalités (T1, T1ce, T2, FLAIR). 1196 patients utilisés en cross-validation 5-fold (les 55 restants ont des problèmes de format ou des labels incohérents). Métriques : Dice par région (WT, TC, ET), HD95 par classe (NCR, Edema, ET), comptage de fragments topologiques (CC − 1 par classe, sans seuil de taille).

5. Résultats

5.1 Pas de gain Dice à convergence

Les comparaisons initiales à budget d'entraînement court (10 epochs) laissaient espérer un gain Dice notable (+0,74 pp), mais à 300 epochs sur la CV 5-fold complète (1196 patients) le delta s'est dissous dans le bruit de mesure (Δ = +0,09 pp, Wilcoxon p > 0,25 par région). DistMap ne donne pas de Dice gratuit.

5.3 Dynamique CC-consensus (1196 patients)

Sur la CV 5-fold : Baseline 0,9078, DistMap 0,9088, CC-Consensus 0,9090. L'oracle patient-level atteint 0,9131 et l'oracle per-class 0,9139 — soit +0,005 Dice avg au-dessus du défaut CC-consensus, plafond non atteint par 4 familles de classifieurs sur 31 features hand-crafted. CC-Consensus améliore significativement le HD95 NCR de 4,86 → 4,48 mm (Wilcoxon p = 5,7 × 10⁻¹⁴).

5.4 L'oracle hors d'atteinte sans softmax

Aucun des 4 classifieurs (RandomForest, XGBoost, MLP, Logistic Regression) entraînés sur 31 features morphologiques + accord inter-modèles ne dépasse robustement la règle CC-consensus par défaut en cross-validation. Le gap résiduel de 0,005 Dice nécessiterait l'accès aux probabilités softmax voxel-niveau ou la diversité architecturale (ensembling cross-model), motivant l'orientation Paper 2 vers une loss d'entraînement pénalisant les fragments inexistants.

6. Discussion

La tâche SDT régresse, par voxel, une distance signée à la frontière la plus proche. Elle récompense donc le réseau pour des frontières nettes et métriquement précises. Une hypothèse de travail (non vérifiée directement) : cette même pression sensibilise le réseau à de petits signaux frontaliers dans des tissus de transition (interfaces œdème–substance blanche, cavités post-chirurgicales, NCR hétérogène), produisant des voxels à forte réponse SDT qui survivent occasionnellement à l'argmax sous forme de blobs isolés.

7. Conclusion

Le papier qu'on voulait écrire au départ était « DistMap améliore le Dice sur BraTS ». Celui qui a fini par s'écrire est plus intéressant : « DistMap a une surface de décision différente, produit un artefact spécifique, et une règle post-hoc simple transforme cela en un gain cliniquement pertinent sur la qualité de frontière de la nécrose tumorale ».

Remerciements

L'auteur remercie Stanislas Larnier pour ses conseils méthodologiques, ses retours sur la formulation des questions de recherche, et ses relectures attentives des versions successives de ce papier.

Code, données et modèles

Tout le travail est public et réutilisable. Les checkpoints des modèles entraînés sont disponibles sur Hugging Face, le code et les données dérivées sur GitHub, et l'archive citable avec DOI sur Zenodo.

5.2 DistMap produit des fragments fallacieux

Cliquez une figure pour ouvrir cette vue exacte dans le viewer 3D

Figure 1 — Cas C1 (00048-001)
Figure 1 — Cas C1 (00048-001). Baseline > DistMap. La GT ne contient que de l'œdème (vert) ; Baseline reproduit correctement ce pattern. DistMap hallucine une masse NCR (rouge) au sein de l'œdème. CC-Consensus supprime cette hallucination car la composante NCR de DistMap n'a aucun recouvrement avec la prédiction Baseline (veto), restaurant quasi intégralement le score (Dice avg 0,308 → 0,973).
Figure 2 — Cas C2 (01437-000)
Figure 2 — Cas C2 (01437-000). DistMap > Baseline. Baseline sous-segmente la tumeur (Dice 0,589) tandis que DistMap capture correctement l'extension tumorale (Dice 0,923). CC-Consensus égale DistMap (0,923).
Figure 3 — Cas C3 (01428-000)
Figure 3 — Cas C3 (01428-000). B < F < D, filtre tiré côté baseline. Mode de dégradation le plus courant (390 / 1196 patients, 32,6 %).
Figure 4 — Cas C4 (00017-001)
Figure 4 — Cas C4 (00017-001). D < F < B, sauvetage partiel. Baseline excellent (0,991), DistMap à moitié hallucinée (0,657), CC-Consensus récupère 0,890.
Figure 5 — Cas C5 (01530-000)
Figure 5 — Cas C5 (01530-000). F < min(B, D), le filtre casse. 463 / 1196 patients (38,7 %) — le principal mode de défaillance, quand Baseline et DistMap échouent différemment.
Figure 6 — Cas C6 (00540-000)
Figure 6 — Cas C6 (00540-000). Synergie nette. CC-Consensus combine les forces de Baseline (0,785) et DistMap (0,795) pour atteindre 0,869 — strictement supérieur aux deux parents (157 / 1196 patients, 13,1 %).

Références

  1. Isensee F. et al. (2021). nnU-Net : a self-configuring method for deep learning-based biomedical image segmentation. Nature Methods 18, 203–211.
  2. Roy S. et al. (2023). MedNeXt : transformer-driven scaling of ConvNets for medical image segmentation. MICCAI 2023, LNCS 14222.
  3. Ma J. (2020). Distance transform maps improve semantic segmentation of medical images. MIDL 2020.
  4. Xue Y. et al. (2020). Shape-aware organ segmentation by predicting signed distance maps. AAAI 2020.
  5. Karimi D., Salcudean S. E. (2020). Reducing the Hausdorff distance in medical image segmentation. IEEE TMI 39(2), 499–513.
  6. Huang Q. et al. (2021). A deep multi-task learning framework for brain tumor segmentation. Frontiers in Oncology 11, 690244.
  7. Pham T.-D. et al. (2024). SiNGR : Brain tumor segmentation via signed normalized geodesic transform regression. MICCAI 2024.
  8. Ferreira A. et al. (2024). How we won BraTS 2023 adult glioma challenge ? arXiv:2402.17317.
Ouvrir le viewer 3D interactif

1196 patients, 4 modèles (Vérité terrain / Baseline / DistMap / CC-Consensus), vue sagittale, contrôles temps réel