Génomes
Réunion

Transformer la Diversité en Donnée de Référence

Auteurs

Patrick MUNIER

Service de génétique moléculaire, CHU de La Réunion

Dr Thomas HUBY

Responsable du service, CHU de La Réunion

Susie GUILLY

Ingénieure, service de génétique moléculaire, CHU de La Réunion

Dr Fanny FERROUL

Service de Génétique Médicale, CHU de La Réunion

Plan de la présentation

01

L'Angle Mort de la Médecine de Précision
Pourquoi La Réunion est absente des bases génomiques mondiales

02

Histoire et Singularité Génétique de La Réunion
Peuplement, métissage, effet fondateur et double singularité

03

Pipeline Méthodologique
De la puce SNP au séquençage ciblé (WGS)

04

L'Algorithme de Sélection
Comment choisir les individus qui maximisent l'information génétique

05

Ce que le WGS va Produire
Le référentiel réunionnais au service des patients

01

Section 01 · Angle mort

L'Angle Mort de la
Médecine de Précision

Pourquoi la population réunionnaise reste hors champ des bases génomiques mondiales, et ce que cela change en clinique.

Un biais structurel documenté

Le problème n'est pas une seule base, mais l'addition de plusieurs ressources incomplètes. Elles documentent mieux certaines populations que d'autres, sans jamais isoler un profil réunionnais propre.

Ressource	Constat clé	Ce que cela couvre	Limite pour La Réunion
1. GWAS Cohortes d'association	Participants majoritairement européens	Découverte de variants associés et scores polygéniques	Les performances chutent dans les populations sous-représentées et admixées ; un signal réunionnais peut rester invisible ou mal calibré.
2. gnomAD / ExAC Fréquences de variants	Diversification en progrès, mais couverture incomplète	Fréquence populationnelle, filtrage de variants, aide à l'interprétation	Une fréquence "rare" au niveau global peut être fréquente localement ; les profils réunionnais restent dilués dans des catégories trop larges.
3. 1000 Genomes / H3Africa Panels de diversité	Diversité mieux représentée que dans les GWAS historiques	Structure génétique, haplotypes, comparaison entre populations	Aucun sous-groupe ne reproduit l'admixture et la structuration locale réunionnaises ; ce ne sont pas des panels de référence réunionnais.

Conclusion : La population réunionnaise n'est pas absente de toute littérature, mais absente comme référence dédiée . C'est cette absence qui fragilise l'imputation, l'interprétation des variants et les scores de risque.

Le Mur Clinique : Incertitudes et Pertes de Chance

Patient Européen Standard

✓ Diagnostic bénin / clair

Patient Réunionnais

⚠ Résultat : VUS
(variant de signification inconnue)

— Faux positifs : diagnostics erronés (ex : cardiomyopathie hypertrophique à tort)

— Surcoûts : analyses complémentaires inutiles, errance diagnostique prolongée

— Anxiété familiale prolongée sans réponse claire

Pharmacogénétique : Quand le Standard Devient Dangereux

Médicament	Hypothèse euro-centrée	Réalité réunionnaise
Warfarine (Anticoagulant)	Dosage standard efficace	*CYP2C95,6,8,11* → risque hémorragique accru
Clopidogrel (Cardiologie)	50% métaboliseurs normaux	CYP2C19 perte-de-fonction → thrombose de stent

90 %

des individus d’une cohorte admixée ont au moins un résultat pharmacogénétique actionnable ;
l’extrapolation européenne peut sous-estimer le risque.

Génome Réunion

6

Quand l'IA Hérite d'une Mauvaise Référence

Quand les référentiels sont construits sur des cohortes majoritairement européennes, les PRS, la pharmacogénétique et les modèles d'IA biomédicale se généralisent mal aux populations admixées.

GWAS

cohortes majoritairement européennes dans les études d'association et les scores dérivés

Pourquoi c'est un problème

L'IA biomédicale n'invente pas ses biais : elle les hérite des bases de données, cohortes et référentiels sur lesquels elle est entraînée ou calibrée.

Aucune

référence réunionnaise dédiée dans les standards internationaux

Conséquence directe : Les outils prédictifs, biomarqueurs et recommandations assistés par IA risquent d'être moins bien calibrés pour les patients réunionnais.

Génome Réunion

7

Comment Génome Réunion Corrige le Biais de l'IA

1

Données d'entraînement

Introduire une référence réunionnaise pour que les modèles ne déduisent plus la diversité locale à partir d'un proxy européen.

2

Modèles recalibrés

Améliorer PRS, interprétation de variants, pharmacogénétique et outils d'aide à la décision à partir d'un jeu de données représentatif.

3

IA plus transférable

Réduire les faux positifs, mieux classer les VUS et limiter les erreurs thérapeutiques quand les recommandations assistées par IA passent au lit du patient.

La réponse au biais IA

L'objectif n'est pas d'ajuster après coup un modèle euro-centré, mais d'introduire la diversité réunionnaise dans les données qui servent à entraîner, calibrer et évaluer les outils.

02

Section 02 · Singularité

Histoire et
Singularité Génétique
de La Réunion

Un peuplement sans autochtones, à la croisée de plusieurs continents, qui a produit une singularité démographique et génétique rare.

La Réunion : un peuplement sans autochtones

1663

Colonisation / Esclavage

Europe · Afrique
Madagascar

1848

Engagisme

Inde du Sud · Chine
Afrique

XXe s.

Migrations

Mayotte · Comores
Madagascar

Auj.

Population

Admixture
unique

Message clé : la structure réunionnaise ne dérive pas d'un noyau autochtone ancien, mais d'apports successifs importés puis recombinés sur un espace insulaire clos.

« La Réunion est un laboratoire d'histoire humaine, un monde recomposé où se mêlent les fragments d'identités transplantées. »

Prosper Ève · Esclavage, métissage, liberté , 2003

« Le marron est l'homme de la rupture ; il rejette le monde colonial et tente d'en bâtir un autre dans les hauteurs. »

Sudel Fuma · La révolte des oreilles coupées , 2011

Du peuplement au métissage

Ce qu'il faut comprendre

Le métissage réunionnais n'est pas un flou identitaire.

C'est une recomposition génétique continue entre ascendances africaines, malgaches, européennes, indiennes, chinoises et comoriennes. Chaque individu porte une combinaison différente de segments hérités.

Afrique / Madagascar Inde du Sud Europe Chine / Asie

Le métissage n'est pas un simple mélange : il produit des profils génétiques inédits, segment par segment.

Afrique / Madagascar

Inde du Sud

Europe

Asie / Chine

Pourquoi La Réunion n'est pas une population homogène

Cas 1

Population plus homogène

Les individus se ressemblent davantage entre eux : les outils statistiques convergent plus vite et les références existantes capturent déjà une part importante de la variation.

Cas 2

La Réunion : une structure interne stratifiée

Sous le nom d'une seule population se cachent des profils variés, des proportions d'ascendance différentes et des relations de parenté qui ne se résument pas à un centre unique.

Conséquence : parler de “la population réunionnaise” est utile cliniquement, mais insuffisant analytiquement. Il faut modéliser sa diversité interne plutôt que la lisser.

L'effet fondateur : l'autre singularité

Définition

Quand un petit nombre d'ancêtres contribue fortement à des sous-groupes locaux, certains variants deviennent beaucoup plus fréquents que dans les grandes bases internationales.

Conséquences cliniques

Cette logique éclaire l'existence de maladies rares réunionnaises et de variants localement enrichis, comme le syndrome Larsen-Bourbon ou le syndrome de Ravine.

La Réunion ne combine donc pas seulement des origines multiples : elle a aussi produit des concentrations locales de variants rares.

La double singularité réunionnaise

Singularité 1

Admixture

Une diversité allélique large, issue de plusieurs continents, qui oblige à couvrir beaucoup plus d'espace génétique qu'une cohorte homogène.

Singularité 2

Effet fondateur

Des goulots historiques et des sous-groupes locaux qui enrichissent certains variants rares, parfois invisibles dans les référentiels mondiaux.

Conséquence analytique : la population réunionnaise cumule deux logiques que les outils standards traitent mal ensemble. C'est précisément ce qui justifie un référentiel local et une stratégie de sélection WGS (Whole Genome Sequencing) dédiée.

03

Section 03 · Méthodologie

Pipeline
Méthodologique

Le WGS n'est pas un tirage au sort, mais une optimisation raisonnée à partir des données issues de la puce SNP.

Le Pipeline d'Optimisation

1

Échantillonnage
(EFS)

Donneurs volontaires reflétant la diversité de l'île.

2

Extraction & Stockage ADN
(CHU Réunion)

Extraction, contrôle qualité et biobanque ADN.

3

Génotypage
(Puce SNP · CHU Réunion)

PCA · admixture · parenté · ROH

4

Sélection WGS
(POPgen)

Score multicritère → max information

5

Base de Données
Locale

CHU Réunion · Epitech

Le WGS coûte cher. Le passage étape 3→4 n'est pas un tirage au sort — c'est une équation d'optimisation : max I(S) sous Coût(S) ≤ B.

De la Puce SNP au WGS : l'entonnoir d'optimisation

1

Puce SNP — Économique & Exhaustif
Génotypage de toute la cohorte EFS pour cartographier la structure génétique globale à moindre coût.

2

Score Multicritère S_div — Le Filtre
Calcul de S_div pour identifier les profils maximisant l'information nouvelle I(S) sous contrainte budgétaire.

3

WGS Panel — Coûteux & Précis
Séquençage complet uniquement sur le sous-ensemble S optimisé.

Conclusion : Ce n'est pas un échantillonnage aléatoire, mais une optimisation dirigée par la donnée observable.

04

Section 04 · Algorithme

L'Algorithme
de Sélection

Comment choisir, sous contrainte budgétaire, les individus qui maximisent l'information utile du futur panel réunionnais.

Algorithme de Sélection — Vue d'ensemble

Le défi

2 500 individus génotypés, budget limité pour WGS → sélectionner 350 maximisant l'information utile I(S) sous contrainte budgétaire.

Deux niveaux indissociables :

✓ Représentativité géographique — chaque secteur proportionnel
✓ Diversité génétique locale — maximiser l'information par secteur

La solution : S_div

S_div = 0.30·PCA + 0.30·ADMIX + 0.25·IBD + 0.15·ROH

4 dimensions complémentaires :

PCA_score — position génétique
ADMIX_score — ancestralité diverse
IBD_score — indépendance génétique
ROH_score — peu de consanguinité

Algorithme : Greedy stratifié par secteur (quintiles, binaire ou libre selon N) + contrainte IBD cross-secteur. Validation sur 1000G puis EPIGEN-Brasil avant déploiement.

Validation & Déploiement

1000 Genomes (proxy)

3 populations admixées (Afrique, Inde, tri-ancestral) × 3 budgets (N = 100, 200, 350) × 5 stratégies.

Critères succès :

• KS-test < 0.10
• Couverture allélique > random
• ≥ 80% des stratégies robustes

EPIGEN-Brasil (réel)

6 487 individus — admixture réelle africain/européen/amérindien, 30 WGS séquencés.

Validation croisée :

• Sélection S_div vs random
• Couverture rare variants
• SNP score vs WGS réel

✓ Succès 1000G + EPIGEN → Confiance avant déploiement sur cohorte EFS réunionnaise
⚠ Limitations acceptables : variants rares MAF < 1% moins fiables · heuristique paramétrée (non optimale mathématiquement)

Comparaison des 6 stratégies de sélection testées

Avant d'adopter S_div stratifié, six approches ont été évaluées sur critères de robustesse, couverture allélique, et stabilité inter-populations. Seule S_div géo-ancestral montre performance complète sur tous les domaines.

Stratégie	Approche	Avantages	Limitation	Verdict
1. Random sampling	Tirage aléatoire	Pas de biais cognitif	Perte de diversité génétique, couverture rares faible	Benchmark
2. PCA-only	Position PCA maximale	Marginalité génétique	Ignore parenté IBD, sur-représente outliers	Rejeté
3. Maximin IBD	Maximiser distance IBD min	Indépendance génétique	Ignore structure géographique, biais géographique	Rejeté
4. Géo + S_div naïf	Secteur + S_div non pondéré	Représentativité démo	Poids non justifiés, sensibilité paramètre	Partiel
5. Géo-ancestral + S_div ✓	Secteur + S_div 4-composantes	Diversité complète, robustesse, inter-populations	Heuristique non optimale mathématiquement	RETENU
6. ADMIXTURE-only + greedy	Inférence ancestralité + sélection	Capture ancestralité	Ignore PCA local, parenté non gérée	Rejeté

Critères d'évaluation : Couverture allélique (rares variants, MAF 0.1-1%), KS-test distribution (accord fréquences), stabilité inter-populations (African, South Asian, tri-ancestral), robustesse intra-seed (ordres aléatoires).

Justification statistique : pourquoi 350 WGS = 700 haplotypes ?

Formule de détection :

P(détection variant) = 1 − (1 − MAF)⁷⁰⁰

Avec 350 WGS (700 haplotypes), la probabilité de détecter au moins une copie d'un variant dépend directement de sa fréquence allélique (MAF).

Seuil adopté : MAF ≥ 1%

• Couverture fiable des variants communs
• Variants < 1% : non fiables à ce panel
• Limit acceptée pour référentiel réunionnais

Robustesse par MAF (tableau) :

MAF	Copies attendues	P(détection)	Fiabilité
5%	35	>99.9%	✓ Très robuste
2%	14	>99.9%	✓ Robuste
1%	7	>99.9%	✓ Limite acceptable
0.5%	3.5	~97%	⚠ Fragile
0.1%	0.7	~50%	✗ Non fiable

Comparaison : Naslavsky (Brasil, 1171 WGS, MAF ~0.1%) vs Génome Réunion (350 WGS, MAF ~1%). Le seuil 1% offre un équilibre rareté/robustesse adapté à notre effectif.

Architecture du projet : trois ressources complémentaires

Ressource	Taille	Statut	Rôle principal
Cohorte SNP populationnelle	2 500 indiv	Base populationnelle	Structure génétique de référence, sélection WGS, recalibrage fréquences finales
Panel WGS optimisé	350 indiv (⊂ 2500)	Panel hybride	Découverte variants rares, imputation locale, référence pour clinique
Familles nucléaires SNP	100 familles (∉ 2500)	Ressource technique	Phasage transmission mendélienne, haplotypes population réunionnaise

⚠️ Point critique : Les 100 familles ne sont pas incluses dans les 2500. C'est une ressource de phasage technique, pas une source d'observations indépendantes pour les fréquences.

Panel WGS hybride V3 : noyau géographique + découverte contrôlée

Pourquoi hybride ?

Noyau (322 indiv): Représentativité géographique dominante, ancrage démographique
Découverte (28 indiv): Profils informatifs : rares, fondateurs, extrêmes, utiles pour imputation
Recalibrage: Fréquences finales calculées sur les 2500 SNP, pas sur le panel WGS brut

Statut technique : Panel hybride validé 1000G avant déploiement sur Réunion.

Allocation V3 opérationnelle :

Composante	%	N approx	Objectif
Noyau géo strict	90–95%	315–332	Ancrage démo
Bras découverte	5–10%	18–35	Rareté/fondateurs
Total	100%	350	Panel hybride

Par défaut opérationnel :
N_core = 322 (92%)
N_discovery = 28 (8%)

🚨 Ne pas confondre : Découverte (richesse WGS capturée par le bras) ≠ Fréquence populationnelle (recalibrage obligatoire sur 2500 SNP pour tous les variants).

Deux niveaux, une contrainte principale

Niveau 1 — Fondation

Représentativité
géographique

Noyau géographique strict : Chaque secteur contribue proportionnellement à sa part de la cohorte. Sans cette garantie, le panel reflète les zones sur-recrutées. (Variante opérationnelle : noyau 322 indiv + bras découverte 28 indiv)

Ancrage dominant

Niveau 2 — Optimisation

Diversité génétique
locale + découverte

Au sein de chaque secteur : maximiser l'information via score S_div multicritère (4 dimensions). Bras découverte : score insulaire pour profils rares/fondateurs/informatifs après noyau géographique.

Algo greedy + enrichissement

2 500 individus

Génotypage SNP

une fois

Métriques globales

PCA · ADMIXTURE · ROH

par secteur

Secteurs (× 7-8)

IBD · S_div · Quintiles

sélection

350 WGS

Référentiel réunionnais

Représentativité géographique — la contrainte première

Noyau géographique strict (N_core = 322) : Chaque secteur reçoit N_core = round(proportion × 322). En cas de désaccord d'arrondi (somme ≠ 322), ajuster ±1 au secteur plus proche du demi-entier.

Secteur	% cohorte	N_core
Nord-Est	20.0 %	64
Sud-Est	16.0 %	52
Est	15.2 %	49
Sud	14.0 %	45
Nord	12.8 %	41
Ouest	12.0 %	39
Nord-Ouest	10.0 %	32
Total	100 %	322

Valeurs illustratives. Quotas réels dépendent de cohorte EFS observée.

Bras découverte (N_discovery = 28) : 28 individus sélectionnés après noyau géographique par score insulaire S_discovery_global. Profils rares, fondateurs, extrêmes ou utiles pour l'imputation. Non-redondance avec noyau vérifiée via IBD (kinship KING < 0.0625).

Quatre dimensions complémentaires de S_div

GLOBAL · 2500

1 · PCA_score

Distance au centroïde du secteur dans l'espace global PC1–PC5. Capture la marginalité positionnelle — individus aux marges génétiques de leur secteur.

GLOBAL · 2500

2 · ADMIX_score

Entropie de Shannon des proportions ancestrales q_k du modèle global (K déterminé par CV-error, attendu K=4). Capture la diversité ancestrale.

PAR SECTEUR

3 · IBD_score

1 − max parenté IBD avec les autres membres du secteur. Capture l'indépendance génétique et évite la redondance informationnelle.

GLOBAL · 2500

4 · ROH_score

Inverse des segments homozygotes longs. Pénalise la consanguinité — signature de l'effet fondateur réunionnais.

Pourquoi global vs par-secteur ?

PCA (global) : centroïdes secteurs bien positionnés dans espace commun
ADMIXTURE (global) : modèle ancestral unique → q_k identiques tous secteurs
IBD (par-secteur) : parenté contexte local de sélection
ROH (global) : métrique individuelle, non affectée par groupe

Normalisation locale (min/max par secteur) : scores absolus non comparables inter-secteurs, sans conséquence car sélection opère qu'au sein de chaque secteur.

Génome Réunion 27

Composantes globales : position et composition

1 · PCA_score — Position

dist(i) = √Σ(PCₖ(i) − cₖ)²

PCA_score = (dist − min) / (max − min)

PCA calculée sur les 2 500 — centroïde du secteur dans l'espace commun à toute la cohorte. La normalisation locale qui suit sert uniquement à ramener les distances à [0,1] pour l'agrégation.

2 · ADMIX_score — Composition

H(i) = −Σ qₖ × log(qₖ)

ADMIX_score = (H − min) / (max − min)

Modèle global → q_k interprétables de façon identique dans tous les secteurs. K optimal déterminé par cross-validation (K testé 2–10 ; choix par CV-error, stabilité, interprétabilité). Attendu K=4 pour La Réunion (africain, indien, européen, malgache).

Note : L'entropie seule ne capture pas la rareté ancestrale. Le bras découverte (28 indiv) utilise S_discovery_rarity (distance au centroïde q_k du secteur ancestral) plutôt que l'entropie — capturant profils aux marges ancestrales. Noyau géographique (322) utilise entropie H(i) pour diversité globale. À valider par analyse de sensibilité.

Génome Réunion 28

Composantes locales : indépendance et effet fondateur

3 · IBD_score — Indépendance

IBD_score(i) = 1 − max_j kinship_KING(i, j)

Calculé au sein du secteur avec métrique KING kinship (robuste population admixée). Le max plutôt que moyenne : un seul lien proche suffit à créer redondance.

kinship > 0.125 1er degré — éliminé

kinship 0.0625–0.125 2e degré — seuil dur

kinship < 0.0625 Non apparenté ✓

Contrainte dure cross-secteur : kinship_KING(candidat, tous déjà sélectionnés) < 0.0625

4 · ROH_score — Effet fondateur

ROH_score(i) = max(0, 1 − ROH_total / 100 Mb)

Calculé globalement sur les 2 500. Pénalise individus avec nombreux segments homozygotes longs — signature consanguinité et effet fondateur.

Version simple (opérationnelle) : formule ci-dessus.
Version empirique (sensibilité) : 1 - rank_percentile(ROH_total, secteur). À comparer en validation.

Pop. générale

Fondateur mild

Fondateur fort

Hétérozygote

ROH (homozygote)

Génome Réunion 29

Le Score de Diversité : tableau de bord paramétrable

S_div = 0.30 × PCA_score + 0.30 × ADMIX_score + 0.25 × IBD_score + 0.15 × ROH_score

Les poids 0.30 · 0.30 · 0.25 · 0.15 sont des valeurs de travail pré-validation. Ils seront testés par analyse de sensibilité (±10%) et analyse leave-one-component-out avant optimisation finale. IBD 0.125 = contrainte dure supplémentaire lors de la sélection greedy — elle élimine les candidats trop apparentés indépendamment de leur score S_div.

Anti-biais directionnel : stratification par quintile

Problème

Sélectionner uniquement les S_div élevés → sur-représentation des profils marginaux → biais directionnel

N_WGS alloué	Stratégie	Distribution
≥ 20	Quintile	20–20–30–20–10 %
6 à 19	Binaire 60/40	Top 50% → 60% des WGS. Bottom 50% → 40% des WGS.
< 6	Greedy seul	Documenté (< 1.7 % cohorte)

Stratification binaire 60/40 : Le top 50% S_div apporte diversité ; le bottom 50% ancre dans les profils représentatifs du secteur. Ce ratio reproduit l'esprit des quintiles (Q1-Q2=40%, Q3=30%, Q4-Q5=30%) avec seulement 2 strates.

Garantie algorithmique : compteur selected_in_quintile indépendant par strate — le plafond est vérifié avant d'accepter un candidat. Q3 (médiane, 30 %) ancre le panel dans les profils typiques du secteur.

Sélection greedy stratifiée — les trois branches

≥ 20

Quintile

5 strates Q1–Q5 (20-20-30-20-10 %). Compteur selected_in_quintile garantit le plafond par strate indépendamment du total secteur.

6–19

Binaire 60 / 40

Top 50 % S_div → 60 % des WGS. Bottom 50 % → 40 %. Maintient l'anti-biais directionnel avec seulement 2 strates.

< 6

Greedy seul

S_div décroissant + contrainte IBD uniquement. Documenté explicitement : secteurs < 1.7 % de la cohorte.

①

IBD vérifié cross-secteur

Chaque candidat est comparé à tous les individus déjà sélectionnés, tous secteurs confondus — pas seulement les membres du même secteur.

②

Secteurs traités par taille décroissante

Les grands secteurs posent les contraintes IBD structurantes en premier, limitant l'asymétrie pour les petits secteurs traités ensuite.

③

Quota non rempli = perdu et tracé

Si l'IBD bloque tous les candidats d'une strate, le quota manquant n'est pas reporté sur la strate suivante — documenté dans le rapport de sélection.

④

Bras découverte sélectionné après noyau

Les 28 individus du bras découverte sont sélectionnés après constitution du noyau géographique, pour assurer la non-redondance avec les individus déjà retenus. Score S_discovery_global (insulaire) distinct de S_div_sector (local).

Robustesse multi-ordre (Recommandation 3) : Pour valider la stabilité du greedy, exécuter l'algorithme en 100+ ordres aléatoires de secteurs (décroissant de taille, aléatoires ≥100, extrêmes). Mesurer l'intersection des sélections : |A ∩ B| / 350. Cible de stabilité : > 95% (variabilité < 5% WGS sélectionnés entre ordres). Cela quantifie la dépendance à l'ordre et garantit la robustesse de la méthodologie avant déploiement.

Exemple concret : calcul pas-à-pas du score

S_div = 0.30 × PCA_score + 0.30 × ADMIX_score + 0.25 × IBD_score + 0.15 × ROH_score

Candidat	S_div
Patient A (profil médian)	0.38 ✗
Patient B (extrême, apparenté)	0.59 ~
Patient C (extrême, non apparenté)	0.85 ✓

C domine : IBD_score élevé (non apparenté) + PCA et ADMIX aux marges du secteur. B est freiné par sa parenté → IBD_score = 0.20 pénalise fortement malgré de bonnes positions génétiques.

— Patient A : centroïde du secteur, toutes les distances faibles. Non sélectionné.

— Patient B : marges PCA et ADMIX élevées mais très apparenté → IBD_score = 0.20 effondre le score.

— Patient C : marges maximales ET non apparenté → sélectionné en priorité.

Phasage réunionnais : 2 500 SNP + 100 familles nucléaires

Pourquoi 100 familles nucléaires ?

Transmission mendélienne : source validée de phases alléliques
Haplotypes adaptés : population réunionnaise spécifique
Améliore : imputation, LAI, IBD, ROH
Réduit les erreurs de phase SNP seuls

Pipeline phasage

2 500 SNP populationnels

+

100 familles nucléaires

↓

phasage assisté par transmission mendélienne

↓

Haplotypes réunionnais

↓

imputation LAI IBD ROH

Garde-fous éthiques

Sélection : non-apparentés, filiation stable
Séparation : données familiales isolées
Protocole dédié : consentement familial spécifique

⚠ Distinctions critiques

Phasage SNP : utiliser 100 familles ✓
Estimations de fréquence : jamais 100 familles — ressource technique, pas analytique
Analyses familiales : données séparées, méthodologie distincte
Annotations : séparation stricte technique vs analytique

Génome Réunion 34

Fréquences finales : brute → pondérée → imputée

Ne pas confondre trois niveaux :

Fréquence WGS brute

← Observée dans 350 WGS
← Biaisée par sélection S_div
← ≠ populationnelle

Fréquence populationnelle pondérée

← Ajustée par strate géographique
← Référentiel : 2500 SNP
← Représentative population Réunion

Fréquence imputée

← Projetée via panel WGS local
← Qualité = f(MAF, couverture)
← Utilisée pour variants ultra-rares

Tableau annotation finale (Recommandation 5) :

Variant	Fréq WGS	Fréq Pond.	Statut	Effectif observé
Commun (MAF >5%)	Observée	Pondérée	Direct Confiance ✓	> 70 copies (350 WGS)
Rare (1-5%)	Observée	Pondérée	Direct Confiance ✓	7–70 copies (350 WGS)
Très rare (0.5-1%)	Observée	Imputée	HC imputation Confiance ✓	3–7 copies ou imputé
Ultra-rare (<0.5%)	—	Imputée	MC imputation Confiance ⚠	< 3 copies (imputé seul)

Formule pondération simple :

freq_pond(v) = Σ_secteur poids_secteur × freq_secteur(v)

où poids_secteur = proportion_secteur / 2500

🔑 Règle systématique : Tous les outputs finaux doivent mentionner : variant MAF · statut (direct/imputé) · confiance (HC/MC) · effectif observé (n haplotypes WGS ou imputé).

Génome Réunion 35

Avantages et limitations acceptables de la méthode

✓

Formules explicites, outils standards

PCA_score, ADMIX_score, IBD_score, ROH_score — définitions précises. Outils : PLINK2, KING, ADMIXTURE avec --seed=42 pour reproductibilité complète.

✓

Algorithme reproductible et auditable

Sélection greedy déterministe : à ensemble S fixé et ordre de traitement documenté, le même résultat est toujours produit. Auditable par un tiers indépendant.

✓

Anti-biais garanti algorithmiquement

Compteur selected_in_quintile par strate — Q3 (médiane, 30 %) impose une représentation des profils typiques. Stratégie documentée pour chaque secteur.

✓

Validation 1000G planifiée avant déploiement

3 groupes admixés × 3 budgets × 5 stratégies. Critère : KS < 0.10 ET couverture allélique > aléatoire sur les 3 groupes — robustesse multi-structurale requise.

⚠

Limitations acceptables et documentées

✓ Heuristique paramétrée, non mathématiquement optimale
✓ Référentiel première génération sous contrainte budgétaire
✓ Variants MAF < 1% : moins fiables avec 350 WGS
✓ Fréquences WGS biaisées par sélection → recalibrage obligatoire sur 2500 SNP
✓ Améliorable itérativement après validation

Validation sur 1000 Genomes avant déploiement

3 populations admixées servant de proxy à la structure génétique réunionnaise :

Groupe 1000G	Code	Rôle
ACB / ASW	Afrique	Ancestral africain
GIH / BEB	Inde	Ancestral indien
Tri-ancestral	Mix	Métissage 3+ apports

Chaque groupe testé en 3 budgets (N = 100, 200, 350) × 5 stratégies (S_div stratifié, S_div naïf, random, PCA-only, maximin-IBD).

Critères de succès :

KS-test < 0.10 (distribution allélique concordante)
Couverture allélique > contrôle aléatoire sur 3 groupes
Robustesse : ≥ 80% des 5 stratégies passent les critères
Reproductibilité : résultats identiques avec --seed différents

🎯 Robustesse multi-groupe : Performance cohérente sur tous les 3 groupes (africain/européen, sud-asiatique, tri-ancestral). Pas d'optimisation locale pour un groupe unique — validation inter-groupes garantit générisabilité à la Réunion.

✓ Succès 1000G → Déploiement sur cohorte EFS réunionnaise.
✗ Échec → Révision des poids S_div ou stratégie quintile.

Génome Réunion 37

Validation complémentaire : cohorte brésilienne admixée (EPIGEN-Brasil)

Pourquoi EPIGEN-Brasil ?

✓ 6 487 individus — cohorte admixée réelle (5-10× plus grande que 1000G)
✓ HumanOmni2.5 genotypes — plateforme SNP compatible avec celle potentiellement utilisée à La Réunion (harmonisable build/strand)
✓ 30 WGS sequencés — sous-ensemble pour validation croisée SNP↔WGS
✓ Structure admixée africaine/européenne/amérindienne — proxy proche de la Réunion
✓ Représente "la vraie vie" — pas une construction 1000G artificialisée

Protocole de validation :

Étape	Détail
1. Sélection	Appliquer algo sur tous 6487
2. Subsample	N=350 sélectionnés via S_div
3. Benchmark	Comparer vs random (N=350)
4. Couverture	Rare variants (MAF 0.1-1%)
5. Cross-validation	30 WGS : SNP scores vs vrai WGS

✓ Succès EPIGEN → Confiance avant déploiement Réunion
✗ Écart → Ajuster critères rareté/stratification

05

Section 05 · WGS

Ce que le WGS
va Produire

Du séquençage à une ressource clinique concrète pour les patients réunionnais.

Les impacts attendus du référentiel réunionnais

🧬 Reclassifier les VUS

Convertir les variants d'incertitude en diagnostics clairs grâce à une base locale robuste.

💊 Pharmacogénomique locale

Adapter les dosages aux variants CYP spécifiques à la population réunionnaise.

📊 Améliorer l'imputation

Un panel local améliore massivement la qualité d'imputation pour les futures études.

🏝 Effet fondateur

Identifier les variants rares fixés par l'isolement : Larsen-Bourbon, Syndrome de Ravine.

🤖 Corriger les biais IA

Alimenter les algorithmes de drug discovery avec une diversité génomique représentative.

⚖ Équité en santé

Garantir que la médecine de précision bénéficie aux populations admixées — pas seulement européennes.

En résumé

Un design rigoureux au service
de l'équité en santé

La Réunion est absente des bases génomiques mondiales — avec des conséquences cliniques réelles et mesurables.

Sa double singularité (admixture + effet fondateur) en fait une opportunité scientifique unique au monde.

Le design puce SNP → score multicritère → WGS ciblé maximise l'information utile sous contrainte budgétaire.

Le référentiel local bénéficiera aux diagnostics, traitements et à la lutte contre les biais de l'IA.

Bon design = variables définies · poids annoncés · algorithme reproductible · validation finale

Génomes Réunion

Plan de la présentation

L'Angle Mort de la Médecine de Précision

Un biais structurel documenté

Le Mur Clinique : Incertitudes et Pertes de Chance

Patient Européen Standard

Patient Réunionnais

Pharmacogénétique : Quand le Standard Devient Dangereux

Quand l'IA Hérite d'une Mauvaise Référence

Pourquoi c'est un problème

Comment Génome Réunion Corrige le Biais de l'IA

Données d'entraînement

Modèles recalibrés

IA plus transférable

La réponse au biais IA

Histoire et Singularité Génétique de La Réunion

La Réunion : un peuplement sans autochtones

Du peuplement au métissage

Le métissage réunionnais n'est pas un flou identitaire.

Pourquoi La Réunion n'est pas une population homogène

L'effet fondateur : l'autre singularité

La double singularité réunionnaise

Admixture

Effet fondateur

Pipeline Méthodologique

Le Pipeline d'Optimisation

De la Puce SNP au WGS : l'entonnoir d'optimisation

L'Algorithme de Sélection

Algorithme de Sélection — Vue d'ensemble

Le défi

La solution : S_div

Validation & Déploiement

1000 Genomes (proxy)

EPIGEN-Brasil (réel)

Comparaison des 6 stratégies de sélection testées

Justification statistique : pourquoi 350 WGS = 700 haplotypes ?

Architecture du projet : trois ressources complémentaires

Panel WGS hybride V3 : noyau géographique + découverte contrôlée

Deux niveaux, une contrainte principale

Représentativitégéographique

Diversité génétiquelocale + découverte

Représentativité géographique — la contrainte première

Quatre dimensions complémentaires de S_div

1 · PCA_score

2 · ADMIX_score

3 · IBD_score

4 · ROH_score

Composantes globales : position et composition

Composantes locales : indépendance et effet fondateur

Le Score de Diversité : tableau de bord paramétrable

Anti-biais directionnel : stratification par quintile

Sélection greedy stratifiée — les trois branches

Quintile

Binaire 60 / 40

Greedy seul

IBD vérifié cross-secteur

Secteurs traités par taille décroissante

Quota non rempli = perdu et tracé

Bras découverte sélectionné après noyau

Exemple concret : calcul pas-à-pas du score

Phasage réunionnais : 2 500 SNP + 100 familles nucléaires

Fréquences finales : brute → pondérée → imputée

Avantages et limitations acceptables de la méthode

Formules explicites, outils standards

Algorithme reproductible et auditable

Anti-biais garanti algorithmiquement

Validation 1000G planifiée avant déploiement

Limitations acceptables et documentées

Validation sur 1000 Genomes avant déploiement

Validation complémentaire : cohorte brésilienne admixée (EPIGEN-Brasil)

Ce que le WGS va Produire

Les impacts attendus du référentiel réunionnais

Un design rigoureux au service de l'équité en santé

Génomes
Réunion

L'Angle Mort de la
Médecine de Précision

Histoire et
Singularité Génétique
de La Réunion

Pipeline
Méthodologique

L'Algorithme
de Sélection

Représentativité
géographique

Diversité génétique
locale + découverte

Ce que le WGS
va Produire

Un design rigoureux au service
de l'équité en santé