Dans les études d'association à l'échelle du génome (GWAS):
- Quels sont les principaux composants?
- Pourquoi sont-ils utilisés?
- Comment sont-ils calculés?
- Une étude d'association à l'échelle du génome peut-elle être réalisée sans utiliser l'ACP?
Dans les études d'association à l'échelle du génome (GWAS):
Réponses:
Dans ce contexte particulier, l'ACP est principalement utilisée pour tenir compte des variations spécifiques à la population dans la distribution des allèles sur les SNP (ou d'autres marqueurs d'ADN, bien que je ne connaisse que le cas de SNP) faisant l'objet d'une enquête. Une telle «sous-structure de la population» résulte principalement de la variation des fréquences des allèles mineurs dans des ancêtres génétiquement éloignés (par exemple, japonais et noir-africain ou européen-américain). L'idée générale est bien expliquée dans Population Structure and Eigenanalysis , par Patterson et al. ( PLoS Genetics 2006, 2 (12)), ou le numéro spécial du Lancet sur l'épidémiologie génétique (2005, 366; la plupart des articles se trouvent sur le Web, à commencer par Cordell & Clayton, Genetic Association Studies ).
La construction des axes principaux découle de l'approche classique de l'ACP, qui est appliquée à la matrice à l'échelle (individus par SNP) des génotypes observés (AA, AB, BB; disons que B est l'allèle mineur dans tous les cas), à l'exception que une normalisation supplémentaire pour tenir compte de la dérive de la population pourrait être appliquée. Tout cela suppose que la fréquence de l'allèle mineur (prenant la valeur en {0,1,2}) peut être considérée comme numérique, c'est-à-dire que nous travaillons sous un modèle additif (également appelé dosage allélique) ou tout équivalent qui aurait du sens . Comme les CP orthogonaux successifs expliqueront la variance maximale, cela permet de mettre en évidence des groupes d'individus différant au niveau de la fréquence des allèles mineurs. Le logiciel utilisé pour cela est connu sous le nom d' Eigenstrat . Il est également disponible dans leegscore()
fonction du package GenABEL R (voir aussi GenABEL.org ). Il convient de noter que d'autres méthodes pour détecter la sous-structure de la population ont été proposées, en particulier la reconstruction de grappes basée sur un modèle (voir les références à la fin). Plus d'informations peuvent être trouvées en parcourant le projet Hapmap et le tutoriel disponible provenant du projet Bioconductor . (Recherchez les jolis didacticiels de Vince J Carey ou de David Clayton sur Google).
Stratification de la population dans l'aide en ligne.
Étant donné que l'analyse propre permet de découvrir une certaine structure au niveau des individus, nous pouvons utiliser ces informations lorsque nous essayons d'expliquer les variations observées dans un phénotype donné (ou toute distribution qui pourrait être définie selon un critère binaire, par exemple la maladie ou le cas-contrôle). situation). Plus précisément, nous pouvons ajuster notre analyse avec ces PC (c.-à-d. Les scores factoriels des individus), comme illustré dans l' analyse en composantes principales corrige la stratification dans les études d'association à l'échelle du génome , par Price et al. ( Nature Genetics 2006, 38 (8)), et des travaux ultérieurs (il y avait une belle image montrant les axes de variation génétique en Europe dans Genes miroir geography within Europe; Nature 2008; Fig 1A reproduite ci-dessous). Notez également qu'une autre solution consiste à effectuer une analyse stratifiée (en incluant l'ethnicité dans un GLM) - cela est facilement disponible dans le package snpMatrix , par exemple.
Les références