Soutenance .pdf



Nom original: Soutenance.pdfTitre: Analyse de données métagénomiques : clustering et inférence de réseauxAuteur: Audrey Hulot

Ce document au format PDF 1.5 a été généré par LaTeX with Beamer class version 3.36 / pdfTeX-1.40.16, et a été envoyé sur fichier-pdf.fr le 10/11/2016 à 11:18, depuis l'adresse IP 90.47.x.x. La présente page de téléchargement du fichier a été vue 454 fois.
Taille du document: 433 Ko (35 pages).
Confidentialité: fichier public


Aperçu du document


Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Analyse de données métagénomiques : clustering et
inférence de réseaux
Audrey Hulot
Stage de 3eannée ENSAI

Audrey Hulot

Analyse de données métagénomiques

1 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Plan
1

2

3

Contexte
La métagénomique
Problématiques associées
Données et méthodes
La méthode Fused-ANOVA
La méthode
Adaptation
multidimensionnelle
Choix du modèle
Critère de vraisemblance
pénalisé
Calibration de la méthode
Audrey Hulot

4

5

Simulations
Choix des règles et
dimensions
Choix du paramètre γ
Discussion et Conclusions
Pistes de recherche
Continuité du travail

Analyse de données métagénomiques

2 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La métagénomique
Problématiques associées
Données et méthodes

Sommaire
1

Contexte
La métagénomique
Problématiques associées
Données et méthodes

2

La méthode Fused-ANOVA

3

Choix du modèle

4

Simulations

5

Discussion et Conclusions

Audrey Hulot

Analyse de données métagénomiques

3 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La métagénomique
Problématiques associées
Données et méthodes

La métagénomique
Dé nition
Étude des génomes issus d'un même milieu et de leurs interactions
Échantillons prélevés en milieu naturel (sols, intestins, mer...)
Motivations de la métagénomique :
90% des bactéries non cultivables en laboratoire
Répercussions en santé, alimentation, environnement
Sujet de recherche récent :
Terme apparu en 1998
Corrélations maladies/microbiote démontrées, mais pas de lien
de cause à e et
Audrey Hulot

Analyse de données métagénomiques

4 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La métagénomique
Problématiques associées
Données et méthodes

Exemples d'application
Projets en cours à l'INRA :
PigletBiota : étude de l'in uence du microbiote intestinal sur
la robustesse des porcelets au sevrage, dans la perspective de
la réduction de l'usage des antobiotiques dans les élevages ;
MetaLit : identi cation des bactéries présentes dans le
microbiote de 287 porcs (Projet international : France,
Danemark, Chine)
,→ Données whole genome
,→ Plus de 7 500 000 gènes

Audrey Hulot

Analyse de données métagénomiques

5 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La métagénomique
Problématiques associées
Données et méthodes

Les données MetaLit
d = 0.2

ACP sur les individus groupés par pays





























d = 0.2

ACP sur les individus groupés par race











































































● ●







●●

























































●●


























●●








● ●●

●●● ●

●●










C



●● ●
● ●

●●

● ●

●●

●●
●● ●




● ●
●● ●











● ●

F




●●




●●













●●

● ●















●● ●
● ●

●●

● ●

●●

●●
●● ●




● ●
●● ●



















● ●

Cre

●●




















●●


● ●

















●●

● ●


















PT
HybFR2




●●











● ●
















Analyse de données métagénomiques









Problématiques :
Quelles sont les bactéries à l'origine des groupes ?
Quelles sont les interactions entre les bactéries ?
Audrey Hulot







HybFR1

LW

















●●

●●
●●



























● ●



●●






●●●







● ●
































●●

HybCN2
HybCN1
Tib

●●











●●●








● ●●

●●● ●

●●




●●
●●






Mei







● ●

HybDN



Bama
BaR

















● ●




● ●
































●●





●●●


















● ●



●●












MeL
Vi
Yu
P.M












































● ●

























●●













●●●











● ●

D























● ●





●●



6 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La métagénomique
Problématiques associées
Données et méthodes

Les données whole genome
La méthode
Séquençage complet ou partiel du génome
Données de grande dimension
Peu utilisées
+ Permet d'identi er de nouvelles bactéries
+ Permet de récupérer le génome des bactéries identi ées
- Coût élevé
- Temps élevé
- Méthodes d'analyses classiques non utilisables
Audrey Hulot

Analyse de données métagénomiques

7 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La métagénomique
Problématiques associées
Données et méthodes

Méthodes d'analyse du whole genome
Problème des données :
Très grand nombre de gènes : clustering classique non applicable
Les méthodes actuelles
Des méthodes ont été développées, mais présentent des limites :
Temps de calcul long
Non robustes
⇒ Développement d'une nouvelle méthode plus rapide et

robuste

Audrey Hulot

Analyse de données métagénomiques

8 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La méthode
Adaptation multidimensionnelle

Sommaire
1

Contexte

2

La méthode Fused-ANOVA
La méthode
Adaptation multidimensionnelle

3

Choix du modèle

4

Simulations

5

Discussion et Conclusions

Audrey Hulot

Analyse de données métagénomiques

9 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La méthode
Adaptation multidimensionnelle

Le Fused-ANOVA
Principe
Méthode basée sur une version contrainte de l'ANOVA à l'aide
d'une pénalité de type Fused-LASSO
Méthode destinée aux données de grande dimension : n >> p
Résout le problème d'optimisation :
minimiser
Kp
β∈R

Audrey Hulot

n
X

||yi − βκ( ) ||22 + λ

X

i=1

wkl Ω(β − β ).
k

i

l

k,l:k6=l

Analyse de données métagénomiques

10 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La méthode
Adaptation multidimensionnelle

Choix des poids et de la norme
Choix conditionné par :
La complexité de la méthode
Moins grande que celle du clustering hiérarchique
Moins grande que celle de la MANOVA
La structure inférée
Structure interprétable (arbre)
Deux gènes proches au départ doivent fusionner rapidement

Audrey Hulot

Analyse de données métagénomiques

11 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La méthode
Adaptation multidimensionnelle

Poids et norme choisis

Dans le cas univarié les choix suivants répondent aux attentes :
Norme : norme l1
Poids : exponentially adaptative

wkl = nk nl exp{−γ n|y¯k − y¯l |}, γ > 0

Audrey Hulot

Analyse de données métagénomiques

12 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La méthode
Adaptation multidimensionnelle

Propriétés de l'algorithme
Complexité moindre que le clustering hiérarchique
Complexité moindre que la MANOVA
Permet un clustering sur des millions de données en quelques
secondes

MAIS : problème unidimensionnel (p = 1) ⇒ On infère p arbres
,→ Besoin d'un algorithme d'agrégation des dimensions

Objectif : Complexité sous-quadratique
Audrey Hulot

Analyse de données métagénomiques

13 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La méthode
Adaptation multidimensionnelle

Règles

Principe
Considérer un arbre comme une succession de règles
Description d'une division dans un arbre
R1 , 1, 16.57, [1,1], [2,10]

Les divisions se produisent aux λ de pénalités

Audrey Hulot

Analyse de données métagénomiques

14 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Audrey Hulot

La méthode
Adaptation multidimensionnelle

λ = 9.3,

[1,3], [4,6]

λ = 7.1,

[4,4], [5,6]

λ = 6.2,

[1,1], [2,3]

λ = 4.9,

[5,5], [6,6]

λ = 2.4,

[2,2], [3,3]

Analyse de données métagénomiques

15 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La méthode
Adaptation multidimensionnelle

Déroulement de l'algorithme

1
2
3

Récupérer les règles sur les p dimensions
Les ordonner par ordre de pénalité décroissante
Tant que les individus ne sont pas dégroupés :
Sélectionner la règle suivante
Si elle est active : l'appliquer

4

Construire l'arbre agrégé avec les règles actives

Code implémenté entièrement sous R

Audrey Hulot

Analyse de données métagénomiques

16 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

La méthode
Adaptation multidimensionnelle

Propriétés de l'algorithme
Complexité
O(nplog (n))

Inférieure au clustering hiérarchique classique O(n2 )
Résultat prouvé (borne sur les éléments déplacés)
⇒ Objectif rempli

Qu'en est-il de la performance de la méthode ?

Audrey Hulot

Analyse de données métagénomiques

17 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Critère de vraisemblance pénalisé
Calibration de la méthode

Sommaire
1

Contexte

2

La méthode Fused-ANOVA

3

Choix du modèle
Critère de vraisemblance pénalisé
Calibration de la méthode

4

Simulations

5

Discussion et Conclusions

Audrey Hulot

Analyse de données métagénomiques

18 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Critère de vraisemblance pénalisé
Calibration de la méthode

Motivations

Identi cation de bactéries :
Création de groupes cohérents avec le génome de bactéries
⇒ Objectif : Trouver le niveau de coupure de l'arbre agrégé
Nécessité de passer par un modèle mathématique bien dé ni
,→ Adaptation du cadre univarié au cadre multivarié

Audrey Hulot

Analyse de données métagénomiques

19 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Critère de vraisemblance pénalisé
Calibration de la méthode

Choix d'un critère
AIC :
Nombre de groupes trop grand par rapport à la réalité
Moins robuste au bruit
⇒ Utilisation du BIC

BIC
ˆ BIC = argmin{−log (L(θˆMLE )) + log (np) Dλ }
λ
λ
λ

2

,→ Modèle pour déterminer la log-vraisemblance et Dλ
Audrey Hulot

Analyse de données métagénomiques

20 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Critère de vraisemblance pénalisé
Calibration de la méthode

Modèle MANOVA
On reprend le cadre unidimensionnel
On l'adapte en multidimensionnel
Yij = βκ(i)j + ij =

K
X

βkj 1{i∈Gk } , ij ∼ N (0, σj2 )

k=1

2

log (L(βkj , σj )) = −

np

2

p

log (2π) −

nX

2

log (σj2 )

j=1

p
n
K
X
X
1 X

y

βkj 1{i∈Gk }
ij
2σj2
j=1

Audrey Hulot

i=1

!2

k=1

Analyse de données métagénomiques

21 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Critère de vraisemblance pénalisé
Calibration de la méthode

Calcul sur chacune des dimensions

À un niveau de coupure λ donné :
Degrés de liberté
Dλ =

p
X

|Tλj |

j=1

|Tλj | : nombre de groupes obtenu sur l'arbre j
⇒ Revient à sommer les BIC sur les p dimensions

Audrey Hulot

Analyse de données métagénomiques

22 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Critère de vraisemblance pénalisé
Calibration de la méthode

Impact du γ
Poids

wkl = nk nl exp{−γ n|y¯k − y¯l |}, γ > 0

Paramètre γ important : permet d'aider lorsque les données sont
bruitées
,→ Objectif : trouver comment xer γ
Intuition :
Plus la variance est grande, plus γ doit être grand
⇒ Fixer un γ par dimension

Audrey Hulot

Analyse de données métagénomiques

23 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Choix des règles et dimensions
Choix du paramètre γ

Sommaire
1

Contexte

2

La méthode Fused-ANOVA

3

Choix du modèle

4

Simulations
Choix des règles et dimensions
Choix du paramètre

5

γ

Discussion et Conclusions

Audrey Hulot

Analyse de données métagénomiques

24 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Choix des règles et dimensions
Choix du paramètre γ

Données utilisées
Simulation de comptages par des lois normales :
1000 gènes,
50 individus/dimensions :
30 dimensions avec structure de groupes et variances adaptées
10 dimensions avec structure de groupes et grandes variances
10 dimensions sans structure de groupes

5 groupes : 500, 10, 190, 250 et 50 gènes
Normalisation des données :

⇒ commande voom du package limma

Référence : fonction hclust
Audrey Hulot

Analyse de données métagénomiques

25 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Choix des règles et dimensions
Choix du paramètre γ

Résultats de l'algorithme
Pour l'instant :
Sélection de toutes les règles si actives
Toutes les dimensions sont considérées
Résultats : γ = 1
Algorithme Hclust
Toutes dimensions
0.003
0.06
30 premières
0.239
1
Résultats non optimaux :
⇒ Nécessité de faire le bon choix de modèle
Audrey Hulot

Analyse de données métagénomiques

26 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Audrey Hulot

Choix des règles et dimensions
Choix du paramètre γ

Analyse de données métagénomiques

27 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Choix des règles et dimensions
Choix du paramètre γ

Nécessité de sélectionner dimensions/règles

D'après les résultats précédents :
RImax entre 0.1 et 0.7 : large di érence
Résultats meilleurs sur les 30 premières
⇒ Les dimensions n'apportent pas le même niveau d'information

Résultats sur 30 premières dimensions :
meilleurs mais n'arrivent pas à trouver une répartition proche de la
réalité

Audrey Hulot

Analyse de données métagénomiques

28 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Choix des règles et dimensions
Choix du paramètre γ

Idées de sélections
Comment sélectionner les dimensions qui nous intéressent ?
Selon la variance - γ
Dimensions avec trop de variance : pas intéressantes
Dimensions avec trop peu de variance : pas intéressantes
Selon le niveau de coupure - λ
Dimensions donnant trop de groupes : pas intéressantes
Dimensions ne coupant pas : pas intéressantes
,→ Comment dé nir la limite entre acceptable et non acceptable ?
Audrey Hulot

Analyse de données métagénomiques

29 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Choix des règles et dimensions
Choix du paramètre γ

Étude de γ
Essai de plusieurs con gurations :
Répartitions des dimensions en classe selon leur variance
Reprise de l'intuition : plus la variance est grande plus γ est
grand
Classe quantile [0,0.25] ]0.25,0.5] ]0.5,0.75] ]0.75, 1]
γ=1
1
1
1
1
Con guration 1
0.1
1
2
0.1
Con guration 2
0.1
1
2
2.5

Audrey Hulot

Analyse de données métagénomiques

30 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Choix des règles et dimensions
Choix du paramètre γ

Résultats des con gurations

Con guration
Con guration 1
Con guration 2
γ=1

Toutes les dimensions
Nb Groupes RI
245
0.66
582
0.052
936
0.003

30 premières dimensions
Nb Groupes RI
245
0.66
255
0.654
717
0.23

⇒ Fixer γ en fonction des données est crucial

Audrey Hulot

Analyse de données métagénomiques

31 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Pistes de recherche
Continuité du travail

Sommaire
1

Contexte

2

La méthode Fused-ANOVA

3

Choix du modèle

4

Simulations

5

Discussion et Conclusions
Pistes de recherche
Continuité du travail

Audrey Hulot

Analyse de données métagénomiques

32 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Pistes de recherche
Continuité du travail

Pistes de recherche
Choix du modèle
Paramètre γ :
Toujours peu d'information sur son comportement
Lien à la variance ?
Tester de nouvelles con gurations
Méthode :
Sélection des règles ⇒ Dé nition de nouveaux critères ?
Implémentation
Algorithme implémenté sous R ⇒ passer sous C++/R
Audrey Hulot

Analyse de données métagénomiques

33 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Pistes de recherche
Continuité du travail

Continuité du travail

Projet de thèse
Clustering en grande dimension
Identi cation des bactéries caractéristiques de groupes
phénotypiques
Inférence et analyse de réseaux
1
2

3

Développement de la méthode dans l'axe 1

Audrey Hulot

Analyse de données métagénomiques

34 / 35

Contexte
La méthode Fused-ANOVA
Choix du modèle
Simulations
Discussion et Conclusions

Pistes de recherche
Continuité du travail

Merci de votre attention !

Audrey Hulot

Analyse de données métagénomiques

35 / 35


Soutenance.pdf - page 1/35
 
Soutenance.pdf - page 2/35
Soutenance.pdf - page 3/35
Soutenance.pdf - page 4/35
Soutenance.pdf - page 5/35
Soutenance.pdf - page 6/35
 




Télécharger le fichier (PDF)


Soutenance.pdf (PDF, 433 Ko)

Télécharger
Formats alternatifs: ZIP



Documents similaires


soutenance
rapport de stage
rapport final
monodromes sigma boreliens
chen2015
2015021112wavelets

Sur le même sujet..