Génomes
Réunion

Transformer la Diversité en Donnée de Référence

Auteurs
Patrick MUNIER
Service de génétique moléculaire, CHU de La Réunion
Dr Thomas HUBY
Responsable du service, CHU de La Réunion
Susie GUILLY
Ingénieure, service de génétique moléculaire, CHU de La Réunion
Dr Fanny FERROUL
Service de Génétique Médicale, CHU de La Réunion

Plan de la présentation

01
L'Angle Mort de la Médecine de Précision
Pourquoi La Réunion est absente des bases génomiques mondiales
02
Histoire et Singularité Génétique de La Réunion
Peuplement, métissage, effet fondateur et double singularité
03
Pipeline Méthodologique
De la puce SNP au séquençage ciblé (WGS)
04
L'Algorithme de Sélection
Comment choisir les individus qui maximisent l'information génétique
05
Ce que le WGS va Produire
Le référentiel réunionnais au service des patients
01

L'Angle Mort de la
Médecine de Précision

Pourquoi la population réunionnaise reste hors champ des bases génomiques mondiales, et ce que cela change en clinique.

Un biais structurel documenté

Le problème n'est pas une seule base, mais l'addition de plusieurs ressources incomplètes. Elles documentent mieux certaines populations que d'autres, sans jamais isoler un profil réunionnais propre.

Ressource Constat clé Ce que cela couvre Limite pour La Réunion
1. GWAS
Cohortes d'association
Participants majoritairement européens Découverte de variants associés et scores polygéniques Les performances chutent dans les populations sous-représentées et admixées ; un signal réunionnais peut rester invisible ou mal calibré.
2. gnomAD / ExAC
Fréquences de variants
Diversification en progrès, mais couverture incomplète Fréquence populationnelle, filtrage de variants, aide à l'interprétation Une fréquence "rare" au niveau global peut être fréquente localement ; les profils réunionnais restent dilués dans des catégories trop larges.
3. 1000 Genomes / H3Africa
Panels de diversité
Diversité mieux représentée que dans les GWAS historiques Structure génétique, haplotypes, comparaison entre populations Aucun sous-groupe ne reproduit l'admixture et la structuration locale réunionnaises ; ce ne sont pas des panels de référence réunionnais.
Conclusion : La population réunionnaise n'est pas absente de toute littérature, mais absente comme référence dédiée . C'est cette absence qui fragilise l'imputation, l'interprétation des variants et les scores de risque.

Le Mur Clinique : Incertitudes et Pertes de Chance

Patient Européen Standard

✓ Diagnostic bénin / clair

Patient Réunionnais

⚠ Résultat : VUS
(variant de signification inconnue)

Faux positifs : diagnostics erronés (ex : cardiomyopathie hypertrophique à tort)

Surcoûts : analyses complémentaires inutiles, errance diagnostique prolongée

Anxiété familiale prolongée sans réponse claire

Pharmacogénétique : Quand le Standard Devient Dangereux

Médicament Hypothèse euro-centrée Réalité réunionnaise
Warfarine
(Anticoagulant)
Dosage standard efficace CYP2C9*5,*6,*8,*11 → risque hémorragique accru
Clopidogrel
(Cardiologie)
50% métaboliseurs normaux CYP2C19 perte-de-fonction → thrombose de stent
90 %

des individus d’une cohorte admixée ont au moins un résultat pharmacogénétique actionnable ;
l’extrapolation européenne peut sous-estimer le risque.

Quand l'IA Hérite d'une Mauvaise Référence

Quand les référentiels sont construits sur des cohortes majoritairement européennes, les PRS, la pharmacogénétique et les modèles d'IA biomédicale se généralisent mal aux populations admixées.

GWAS
cohortes majoritairement européennes dans les études d'association et les scores dérivés

Pourquoi c'est un problème

L'IA biomédicale n'invente pas ses biais : elle les hérite des bases de données, cohortes et référentiels sur lesquels elle est entraînée ou calibrée.

Aucune
référence réunionnaise dédiée dans les standards internationaux
Conséquence directe : Les outils prédictifs, biomarqueurs et recommandations assistés par IA risquent d'être moins bien calibrés pour les patients réunionnais.

Comment Génome Réunion Corrige le Biais de l'IA

1

Données d'entraînement

Introduire une référence réunionnaise pour que les modèles ne déduisent plus la diversité locale à partir d'un proxy européen.

2

Modèles recalibrés

Améliorer PRS, interprétation de variants, pharmacogénétique et outils d'aide à la décision à partir d'un jeu de données représentatif.

3

IA plus transférable

Réduire les faux positifs, mieux classer les VUS et limiter les erreurs thérapeutiques quand les recommandations assistées par IA passent au lit du patient.

La réponse au biais IA

L'objectif n'est pas d'ajuster après coup un modèle euro-centré, mais d'introduire la diversité réunionnaise dans les données qui servent à entraîner, calibrer et évaluer les outils.

02

Histoire et
Singularité Génétique
de La Réunion

Un peuplement sans autochtones, à la croisée de plusieurs continents, qui a produit une singularité démographique et génétique rare.

La Réunion : un peuplement sans autochtones

1663

Colonisation / Esclavage

Europe · Afrique
Madagascar

1848

Engagisme

Inde du Sud · Chine
Afrique

XXe s.

Migrations

Mayotte · Comores
Madagascar

Auj.

Population

Admixture
unique

Message clé : la structure réunionnaise ne dérive pas d'un noyau autochtone ancien, mais d'apports successifs importés puis recombinés sur un espace insulaire clos.

« La Réunion est un laboratoire d'histoire humaine, un monde recomposé où se mêlent les fragments d'identités transplantées. »

Prosper Ève · Esclavage, métissage, liberté , 2003

« Le marron est l'homme de la rupture ; il rejette le monde colonial et tente d'en bâtir un autre dans les hauteurs. »

Sudel Fuma · La révolte des oreilles coupées , 2011

Du peuplement au métissage

Ce qu'il faut comprendre

Le métissage réunionnais n'est pas un flou identitaire.

C'est une recomposition génétique continue entre ascendances africaines, malgaches, européennes, indiennes, chinoises et comoriennes. Chaque individu porte une combinaison différente de segments hérités.

Afrique / Madagascar Inde du Sud Europe Chine / Asie

Le métissage n'est pas un simple mélange : il produit des profils génétiques inédits, segment par segment.

Afrique / Madagascar
Inde du Sud
Europe
Asie / Chine

Pourquoi La Réunion n'est pas une population homogène

Cas 1
Population plus homogène

Les individus se ressemblent davantage entre eux : les outils statistiques convergent plus vite et les références existantes capturent déjà une part importante de la variation.

Cas 2
La Réunion : une structure interne stratifiée

Sous le nom d'une seule population se cachent des profils variés, des proportions d'ascendance différentes et des relations de parenté qui ne se résument pas à un centre unique.

Conséquence : parler de “la population réunionnaise” est utile cliniquement, mais insuffisant analytiquement. Il faut modéliser sa diversité interne plutôt que la lisser.

L'effet fondateur : l'autre singularité

Définition

Quand un petit nombre d'ancêtres contribue fortement à des sous-groupes locaux, certains variants deviennent beaucoup plus fréquents que dans les grandes bases internationales.

Conséquences cliniques

Cette logique éclaire l'existence de maladies rares réunionnaises et de variants localement enrichis, comme le syndrome Larsen-Bourbon ou le syndrome de Ravine.

La Réunion ne combine donc pas seulement des origines multiples : elle a aussi produit des concentrations locales de variants rares.

La double singularité réunionnaise

Singularité 1

Admixture

Une diversité allélique large, issue de plusieurs continents, qui oblige à couvrir beaucoup plus d'espace génétique qu'une cohorte homogène.

Singularité 2

Effet fondateur

Des goulots historiques et des sous-groupes locaux qui enrichissent certains variants rares, parfois invisibles dans les référentiels mondiaux.

Conséquence analytique : la population réunionnaise cumule deux logiques que les outils standards traitent mal ensemble. C'est précisément ce qui justifie un référentiel local et une stratégie de sélection WGS (Whole Genome Sequencing) dédiée.

03

Pipeline
Méthodologique

Le WGS n'est pas un tirage au sort, mais une optimisation raisonnée à partir des données issues de la puce SNP.

Le Pipeline d'Optimisation

1

Échantillonnage
(EFS)

Donneurs volontaires reflétant la diversité de l'île.

2

Extraction & Stockage ADN
(CHU Réunion)

Extraction, contrôle qualité et biobanque ADN.

3

Génotypage
(Puce SNP · CHU Réunion)

PCA · admixture · parenté · ROH

4

Sélection WGS
(POPgen)

Score multicritère → max information

5

Base de Données
Locale

CHU Réunion · Epitech

Le WGS coûte cher. Le passage étape 3→4 n'est pas un tirage au sort — c'est une équation d'optimisation : max I(S) sous Coût(S) ≤ B.

De la Puce SNP au WGS : l'entonnoir d'optimisation

1
Puce SNP — Économique & Exhaustif
Génotypage de toute la cohorte EFS pour cartographier la structure génétique globale à moindre coût.
2
Score Multicritère S_div — Le Filtre
Calcul de S_div pour identifier les profils maximisant l'information nouvelle I(S) sous contrainte budgétaire.
3
WGS Panel — Coûteux & Précis
Séquençage complet uniquement sur le sous-ensemble S optimisé.
Conclusion : Ce n'est pas un échantillonnage aléatoire, mais une optimisation dirigée par la donnée observable.
04

L'Algorithme
de Sélection

Comment choisir, sous contrainte budgétaire, les individus qui maximisent l'information utile du futur panel réunionnais.

Algorithme de Sélection — Vue d'ensemble

Le défi

2 500 individus génotypés, budget limité pour WGS → sélectionner 350 maximisant l'information utile I(S) sous contrainte budgétaire.

Deux niveaux indissociables :

  • Représentativité géographique — chaque secteur proportionnel
  • Diversité génétique locale — maximiser l'information par secteur

La solution : S_div

S_div = 0.30·PCA + 0.30·ADMIX + 0.25·IBD + 0.15·ROH

4 dimensions complémentaires :

  • PCA_score — position génétique
  • ADMIX_score — ancestralité diverse
  • IBD_score — indépendance génétique
  • ROH_score — peu de consanguinité
Algorithme : Greedy stratifié par secteur (quintiles, binaire ou libre selon N) + contrainte IBD cross-secteur. Validation sur 1000G puis EPIGEN-Brasil avant déploiement.

Validation & Déploiement

1000 Genomes (proxy)

3 populations admixées (Afrique, Inde, tri-ancestral) × 3 budgets (N = 100, 200, 350) × 5 stratégies.

Critères succès :

  • • KS-test < 0.10
  • • Couverture allélique > random
  • • ≥ 80% des stratégies robustes

EPIGEN-Brasil (réel)

6 487 individus — admixture réelle africain/européen/amérindien, 30 WGS séquencés.

Validation croisée :

  • • Sélection S_div vs random
  • • Couverture rare variants
  • • SNP score vs WGS réel
Succès 1000G + EPIGEN → Confiance avant déploiement sur cohorte EFS réunionnaise
Limitations acceptables : variants rares MAF < 1% moins fiables · heuristique paramétrée (non optimale mathématiquement)

Comparaison des 6 stratégies de sélection testées

Avant d'adopter S_div stratifié, six approches ont été évaluées sur critères de robustesse, couverture allélique, et stabilité inter-populations. Seule S_div géo-ancestral montre performance complète sur tous les domaines.

Stratégie Approche Avantages Limitation Verdict
1. Random sampling Tirage aléatoire Pas de biais cognitif Perte de diversité génétique, couverture rares faible Benchmark
2. PCA-only Position PCA maximale Marginalité génétique Ignore parenté IBD, sur-représente outliers Rejeté
3. Maximin IBD Maximiser distance IBD min Indépendance génétique Ignore structure géographique, biais géographique Rejeté
4. Géo + S_div naïf Secteur + S_div non pondéré Représentativité démo Poids non justifiés, sensibilité paramètre Partiel
5. Géo-ancestral + S_div ✓ Secteur + S_div 4-composantes Diversité complète, robustesse, inter-populations Heuristique non optimale mathématiquement RETENU
6. ADMIXTURE-only + greedy Inférence ancestralité + sélection Capture ancestralité Ignore PCA local, parenté non gérée Rejeté
Critères d'évaluation : Couverture allélique (rares variants, MAF 0.1-1%), KS-test distribution (accord fréquences), stabilité inter-populations (African, South Asian, tri-ancestral), robustesse intra-seed (ordres aléatoires).

Justification statistique : pourquoi 350 WGS = 700 haplotypes ?

Formule de détection :

P(détection variant) = 1 − (1 − MAF)700

Avec 350 WGS (700 haplotypes), la probabilité de détecter au moins une copie d'un variant dépend directement de sa fréquence allélique (MAF).

Seuil adopté : MAF ≥ 1%

  • • Couverture fiable des variants communs
  • • Variants < 1% : non fiables à ce panel
  • • Limit acceptée pour référentiel réunionnais

Robustesse par MAF (tableau) :

MAFCopies attenduesP(détection)Fiabilité
5%35>99.9%✓ Très robuste
2%14>99.9%✓ Robuste
1%7>99.9%✓ Limite acceptable
0.5%3.5~97%⚠ Fragile
0.1%0.7~50%✗ Non fiable

Comparaison : Naslavsky (Brasil, 1171 WGS, MAF ~0.1%) vs Génome Réunion (350 WGS, MAF ~1%). Le seuil 1% offre un équilibre rareté/robustesse adapté à notre effectif.

Architecture du projet : trois ressources complémentaires

Ressource Taille Statut Rôle principal
Cohorte SNP populationnelle 2 500 indiv Base populationnelle Structure génétique de référence, sélection WGS, recalibrage fréquences finales
Panel WGS optimisé 350 indiv (⊂ 2500) Panel hybride Découverte variants rares, imputation locale, référence pour clinique
Familles nucléaires SNP 100 familles (∉ 2500) Ressource technique Phasage transmission mendélienne, haplotypes population réunionnaise

⚠️ Point critique : Les 100 familles ne sont pas incluses dans les 2500. C'est une ressource de phasage technique, pas une source d'observations indépendantes pour les fréquences.

Panel WGS hybride V3 : noyau géographique + découverte contrôlée

Pourquoi hybride ?

  • Noyau (322 indiv): Représentativité géographique dominante, ancrage démographique
  • Découverte (28 indiv): Profils informatifs : rares, fondateurs, extrêmes, utiles pour imputation
  • Recalibrage: Fréquences finales calculées sur les 2500 SNP, pas sur le panel WGS brut

Statut technique : Panel hybride validé 1000G avant déploiement sur Réunion.

Allocation V3 opérationnelle :

Composante%N approxObjectif
Noyau géo strict90–95%315–332Ancrage démo
Bras découverte5–10%18–35Rareté/fondateurs
Total100%350Panel hybride

Par défaut opérationnel :
N_core = 322 (92%)
N_discovery = 28 (8%)

🚨 Ne pas confondre : Découverte (richesse WGS capturée par le bras) ≠ Fréquence populationnelle (recalibrage obligatoire sur 2500 SNP pour tous les variants).

Deux niveaux, une contrainte principale

Niveau 1 — Fondation

Représentativité
géographique

Noyau géographique strict : Chaque secteur contribue proportionnellement à sa part de la cohorte. Sans cette garantie, le panel reflète les zones sur-recrutées. (Variante opérationnelle : noyau 322 indiv + bras découverte 28 indiv)

Ancrage dominant
Niveau 2 — Optimisation

Diversité génétique
locale + découverte

Au sein de chaque secteur : maximiser l'information via score S_div multicritère (4 dimensions). Bras découverte : score insulaire pour profils rares/fondateurs/informatifs après noyau géographique.

Algo greedy + enrichissement
2 500 individus
Génotypage SNP
une fois
Métriques globales
PCA · ADMIXTURE · ROH
par secteur
Secteurs (× 7-8)
IBD · S_div · Quintiles
sélection
350 WGS
Référentiel réunionnais

Représentativité géographique — la contrainte première

Noyau géographique strict (N_core = 322) : Chaque secteur reçoit Ncore = round(proportion × 322). En cas de désaccord d'arrondi (somme ≠ 322), ajuster ±1 au secteur plus proche du demi-entier.

Secteur% cohorteN_core
Nord-Est20.0 %64
Sud-Est16.0 %52
Est15.2 %49
Sud14.0 %45
Nord12.8 %41
Ouest12.0 %39
Nord-Ouest10.0 %32
Total100 %322

Valeurs illustratives. Quotas réels dépendent de cohorte EFS observée.

Bras découverte (N_discovery = 28) : 28 individus sélectionnés après noyau géographique par score insulaire S_discovery_global. Profils rares, fondateurs, extrêmes ou utiles pour l'imputation. Non-redondance avec noyau vérifiée via IBD (kinship KING < 0.0625).

Quatre dimensions complémentaires de S_div

GLOBAL · 2500

1 · PCA_score

Distance au centroïde du secteur dans l'espace global PC1–PC5. Capture la marginalité positionnelle — individus aux marges génétiques de leur secteur.

GLOBAL · 2500

2 · ADMIX_score

Entropie de Shannon des proportions ancestrales q_k du modèle global (K déterminé par CV-error, attendu K=4). Capture la diversité ancestrale.

PAR SECTEUR

3 · IBD_score

1 − max parenté IBD avec les autres membres du secteur. Capture l'indépendance génétique et évite la redondance informationnelle.

GLOBAL · 2500

4 · ROH_score

Inverse des segments homozygotes longs. Pénalise la consanguinité — signature de l'effet fondateur réunionnais.

Pourquoi global vs par-secteur ?
  • PCA (global) : centroïdes secteurs bien positionnés dans espace commun
  • ADMIXTURE (global) : modèle ancestral unique → q_k identiques tous secteurs
  • IBD (par-secteur) : parenté contexte local de sélection
  • ROH (global) : métrique individuelle, non affectée par groupe
Normalisation locale (min/max par secteur) : scores absolus non comparables inter-secteurs, sans conséquence car sélection opère qu'au sein de chaque secteur.

Composantes globales : position et composition

1 · PCA_score — Position
dist(i) = √Σ(PCₖ(i) − cₖ)²
PCA_score = (dist − min) / (max − min)

PCA calculée sur les 2 500 — centroïde du secteur dans l'espace commun à toute la cohorte. La normalisation locale qui suit sert uniquement à ramener les distances à [0,1] pour l'agrégation.

2 · ADMIX_score — Composition
H(i) = −Σ qₖ × log(qₖ)
ADMIX_score = (H − min) / (max − min)

Modèle global → q_k interprétables de façon identique dans tous les secteurs. K optimal déterminé par cross-validation (K testé 2–10 ; choix par CV-error, stabilité, interprétabilité). Attendu K=4 pour La Réunion (africain, indien, européen, malgache).

Note : L'entropie seule ne capture pas la rareté ancestrale. Le bras découverte (28 indiv) utilise S_discovery_rarity (distance au centroïde q_k du secteur ancestral) plutôt que l'entropie — capturant profils aux marges ancestrales. Noyau géographique (322) utilise entropie H(i) pour diversité globale. À valider par analyse de sensibilité.

Composantes locales : indépendance et effet fondateur

3 · IBD_score — Indépendance
IBD_score(i) = 1 − max_j kinship_KING(i, j)

Calculé au sein du secteur avec métrique KING kinship (robuste population admixée). Le max plutôt que moyenne : un seul lien proche suffit à créer redondance.

kinship > 0.125 1er degré — éliminé
kinship 0.0625–0.125 2e degré — seuil dur
kinship < 0.0625 Non apparenté ✓

Contrainte dure cross-secteur : kinship_KING(candidat, tous déjà sélectionnés) < 0.0625

4 · ROH_score — Effet fondateur
ROH_score(i) = max(0, 1 − ROH_total / 100 Mb)

Calculé globalement sur les 2 500. Pénalise individus avec nombreux segments homozygotes longs — signature consanguinité et effet fondateur.

Version simple (opérationnelle) : formule ci-dessus.
Version empirique (sensibilité) : 1 - rank_percentile(ROH_total, secteur). À comparer en validation.

Pop. générale
Fondateur mild
Fondateur fort
Hétérozygote
ROH (homozygote)

Le Score de Diversité : tableau de bord paramétrable

S_div = 0.30 × PCA_score + 0.30 × ADMIX_score + 0.25 × IBD_score + 0.15 × ROH_score
Les poids 0.30 · 0.30 · 0.25 · 0.15 sont des valeurs de travail pré-validation. Ils seront testés par analyse de sensibilité (±10%) et analyse leave-one-component-out avant optimisation finale. IBD 0.125 = contrainte dure supplémentaire lors de la sélection greedy — elle élimine les candidats trop apparentés indépendamment de leur score S_div.

Anti-biais directionnel : stratification par quintile

Problème
Sélectionner uniquement les S_div élevés → sur-représentation des profils marginaux → biais directionnel
N_WGS allouéStratégieDistribution
≥ 20Quintile20–20–30–20–10 %
6 à 19Binaire 60/40Top 50% → 60% des WGS. Bottom 50% → 40% des WGS.
< 6Greedy seulDocumenté (< 1.7 % cohorte)
Stratification binaire 60/40 : Le top 50% S_div apporte diversité ; le bottom 50% ancre dans les profils représentatifs du secteur. Ce ratio reproduit l'esprit des quintiles (Q1-Q2=40%, Q3=30%, Q4-Q5=30%) avec seulement 2 strates.
Garantie algorithmique : compteur selected_in_quintile indépendant par strate — le plafond est vérifié avant d'accepter un candidat. Q3 (médiane, 30 %) ancre le panel dans les profils typiques du secteur.

Sélection greedy stratifiée — les trois branches

≥ 20

Quintile

5 strates Q1–Q5 (20-20-30-20-10 %). Compteur selected_in_quintile garantit le plafond par strate indépendamment du total secteur.

6–19

Binaire 60 / 40

Top 50 % S_div → 60 % des WGS. Bottom 50 % → 40 %. Maintient l'anti-biais directionnel avec seulement 2 strates.

< 6

Greedy seul

S_div décroissant + contrainte IBD uniquement. Documenté explicitement : secteurs < 1.7 % de la cohorte.

IBD vérifié cross-secteur

Chaque candidat est comparé à tous les individus déjà sélectionnés, tous secteurs confondus — pas seulement les membres du même secteur.

Secteurs traités par taille décroissante

Les grands secteurs posent les contraintes IBD structurantes en premier, limitant l'asymétrie pour les petits secteurs traités ensuite.

Quota non rempli = perdu et tracé

Si l'IBD bloque tous les candidats d'une strate, le quota manquant n'est pas reporté sur la strate suivante — documenté dans le rapport de sélection.

Bras découverte sélectionné après noyau

Les 28 individus du bras découverte sont sélectionnés après constitution du noyau géographique, pour assurer la non-redondance avec les individus déjà retenus. Score S_discovery_global (insulaire) distinct de S_div_sector (local).

Robustesse multi-ordre (Recommandation 3) : Pour valider la stabilité du greedy, exécuter l'algorithme en 100+ ordres aléatoires de secteurs (décroissant de taille, aléatoires ≥100, extrêmes). Mesurer l'intersection des sélections : |A ∩ B| / 350. Cible de stabilité : > 95% (variabilité < 5% WGS sélectionnés entre ordres). Cela quantifie la dépendance à l'ordre et garantit la robustesse de la méthodologie avant déploiement.

Exemple concret : calcul pas-à-pas du score

S_div = 0.30 × PCA_score + 0.30 × ADMIX_score + 0.25 × IBD_score + 0.15 × ROH_score
Candidat S_div
Patient A (profil médian) 0.38 ✗
Patient B (extrême, apparenté) 0.59 ~
Patient C (extrême, non apparenté) 0.85 ✓
C domine : IBD_score élevé (non apparenté) + PCA et ADMIX aux marges du secteur. B est freiné par sa parenté → IBD_score = 0.20 pénalise fortement malgré de bonnes positions génétiques.

Patient A : centroïde du secteur, toutes les distances faibles. Non sélectionné.

Patient B : marges PCA et ADMIX élevées mais très apparenté → IBD_score = 0.20 effondre le score.

Patient C : marges maximales ET non apparenté → sélectionné en priorité.

Phasage réunionnais : 2 500 SNP + 100 familles nucléaires

Pourquoi 100 familles nucléaires ?

  • Transmission mendélienne : source validée de phases alléliques
  • Haplotypes adaptés : population réunionnaise spécifique
  • Améliore : imputation, LAI, IBD, ROH
  • Réduit les erreurs de phase SNP seuls

Pipeline phasage

2 500 SNP populationnels
+
100 familles nucléaires
phasage assisté par transmission mendélienne
Haplotypes réunionnais
imputation LAI IBD ROH

Garde-fous éthiques

  • Sélection : non-apparentés, filiation stable
  • Séparation : données familiales isolées
  • Protocole dédié : consentement familial spécifique
⚠ Distinctions critiques
  • Phasage SNP : utiliser 100 familles ✓
  • Estimations de fréquence : jamais 100 familles — ressource technique, pas analytique
  • Analyses familiales : données séparées, méthodologie distincte
  • Annotations : séparation stricte technique vs analytique

Fréquences finales : brute → pondérée → imputée

Ne pas confondre trois niveaux :

Fréquence WGS brute

← Observée dans 350 WGS
Biaisée par sélection S_div
← ≠ populationnelle

Fréquence populationnelle pondérée

← Ajustée par strate géographique
← Référentiel : 2500 SNP
← Représentative population Réunion

Fréquence imputée

← Projetée via panel WGS local
← Qualité = f(MAF, couverture)
← Utilisée pour variants ultra-rares

Tableau annotation finale (Recommandation 5) :

VariantFréq WGSFréq Pond.StatutEffectif observé
Commun
(MAF >5%)
ObservéePondéréeDirect
Confiance ✓
> 70 copies
(350 WGS)
Rare
(1-5%)
ObservéePondéréeDirect
Confiance ✓
7–70 copies
(350 WGS)
Très rare
(0.5-1%)
ObservéeImputéeHC imputation
Confiance ✓
3–7 copies
ou imputé
Ultra-rare
(<0.5%)
ImputéeMC imputation
Confiance ⚠
< 3 copies
(imputé seul)

Formule pondération simple :

freq_pond(v) = Σ_secteur poids_secteur × freq_secteur(v)

poids_secteur = proportion_secteur / 2500

🔑 Règle systématique : Tous les outputs finaux doivent mentionner : variant MAF · statut (direct/imputé) · confiance (HC/MC) · effectif observé (n haplotypes WGS ou imputé).

Avantages et limitations acceptables de la méthode

Formules explicites, outils standards

PCA_score, ADMIX_score, IBD_score, ROH_score — définitions précises. Outils : PLINK2, KING, ADMIXTURE avec --seed=42 pour reproductibilité complète.

Algorithme reproductible et auditable

Sélection greedy déterministe : à ensemble S fixé et ordre de traitement documenté, le même résultat est toujours produit. Auditable par un tiers indépendant.

Anti-biais garanti algorithmiquement

Compteur selected_in_quintile par strate — Q3 (médiane, 30 %) impose une représentation des profils typiques. Stratégie documentée pour chaque secteur.

Validation 1000G planifiée avant déploiement

3 groupes admixés × 3 budgets × 5 stratégies. Critère : KS < 0.10 ET couverture allélique > aléatoire sur les 3 groupes — robustesse multi-structurale requise.

Limitations acceptables et documentées

  • Heuristique paramétrée, non mathématiquement optimale
  • Référentiel première génération sous contrainte budgétaire
  • ✓ Variants MAF < 1% : moins fiables avec 350 WGS
  • ✓ Fréquences WGS biaisées par sélection → recalibrage obligatoire sur 2500 SNP
  • ✓ Améliorable itérativement après validation

Validation sur 1000 Genomes avant déploiement

3 populations admixées servant de proxy à la structure génétique réunionnaise :

Groupe 1000GCodeRôle
ACB / ASWAfriqueAncestral africain
GIH / BEBIndeAncestral indien
Tri-ancestralMixMétissage 3+ apports

Chaque groupe testé en 3 budgets (N = 100, 200, 350) × 5 stratégies (S_div stratifié, S_div naïf, random, PCA-only, maximin-IBD).

Critères de succès :

  • KS-test < 0.10 (distribution allélique concordante)
  • Couverture allélique > contrôle aléatoire sur 3 groupes
  • Robustesse : ≥ 80% des 5 stratégies passent les critères
  • Reproductibilité : résultats identiques avec --seed différents

🎯 Robustesse multi-groupe : Performance cohérente sur tous les 3 groupes (africain/européen, sud-asiatique, tri-ancestral). Pas d'optimisation locale pour un groupe unique — validation inter-groupes garantit générisabilité à la Réunion.

✓ Succès 1000G → Déploiement sur cohorte EFS réunionnaise.
✗ Échec → Révision des poids S_div ou stratégie quintile.

Validation complémentaire : cohorte brésilienne admixée (EPIGEN-Brasil)

Pourquoi EPIGEN-Brasil ?

  • 6 487 individus — cohorte admixée réelle (5-10× plus grande que 1000G)
  • HumanOmni2.5 genotypes — plateforme SNP compatible avec celle potentiellement utilisée à La Réunion (harmonisable build/strand)
  • 30 WGS sequencés — sous-ensemble pour validation croisée SNP↔WGS
  • Structure admixée africaine/européenne/amérindienne — proxy proche de la Réunion
  • Représente "la vraie vie" — pas une construction 1000G artificialisée

Protocole de validation :

ÉtapeDétail
1. SélectionAppliquer algo sur tous 6487
2. SubsampleN=350 sélectionnés via S_div
3. BenchmarkComparer vs random (N=350)
4. CouvertureRare variants (MAF 0.1-1%)
5. Cross-validation30 WGS : SNP scores vs vrai WGS

✓ Succès EPIGEN → Confiance avant déploiement Réunion
✗ Écart → Ajuster critères rareté/stratification

05

Ce que le WGS
va Produire

Du séquençage à une ressource clinique concrète pour les patients réunionnais.

Les impacts attendus du référentiel réunionnais

🧬 Reclassifier les VUS

Convertir les variants d'incertitude en diagnostics clairs grâce à une base locale robuste.

💊 Pharmacogénomique locale

Adapter les dosages aux variants CYP spécifiques à la population réunionnaise.

📊 Améliorer l'imputation

Un panel local améliore massivement la qualité d'imputation pour les futures études.

🏝 Effet fondateur

Identifier les variants rares fixés par l'isolement : Larsen-Bourbon, Syndrome de Ravine.

🤖 Corriger les biais IA

Alimenter les algorithmes de drug discovery avec une diversité génomique représentative.

⚖ Équité en santé

Garantir que la médecine de précision bénéficie aux populations admixées — pas seulement européennes.

En résumé

Un design rigoureux au service
de l'équité en santé

La Réunion est absente des bases génomiques mondiales — avec des conséquences cliniques réelles et mesurables.

Sa double singularité (admixture + effet fondateur) en fait une opportunité scientifique unique au monde.

Le design puce SNP → score multicritère → WGS ciblé maximise l'information utile sous contrainte budgétaire.

Le référentiel local bénéficiera aux diagnostics, traitements et à la lutte contre les biais de l'IA.

Bon design = variables définies · poids annoncés · algorithme reproductible · validation finale

← → clavier · swipe mobile