Dans les études d'association à l'échelle du génome, quels sont les principaux composants?


20

Dans les études d'association à l'échelle du génome (GWAS):

  1. Quels sont les principaux composants?
  2. Pourquoi sont-ils utilisés?
  3. Comment sont-ils calculés?
  4. Une étude d'association à l'échelle du génome peut-elle être réalisée sans utiliser l'ACP?

1
Avant de poser ces questions, avez-vous recherché "PCA" sur ce site ou exploré la balise "PCA"? La plupart de vos questions y sont déjà répondues.
whuber

1
@whuber Je pense que le PO recherche l'utilisation de l'ACP comme moyen de prendre en compte et d'ajuster la stratification de la population lors de la modélisation d'un résultat donné (phénotype continu ou études de cas / témoins) et de marqueurs ADN (SNP). J'ai donné une référence ici: stats.stackexchange.com/questions/1708/variation-in-pca-weights/… .
chl

1
GWAS peut certainement se faire sans composants principaux. En l'absence de stratification de la population, tout ce dont vous avez besoin est de milliers de tests ou de milliers de tests du khi carré. t
arrêt

@onestop (+1) Je considérerai que vous avez répondu à la 2e question, que je n'ai même pas prise en compte dans ma propre réponse.
chl

@onestop, que se passe-t-il si seulement stratifier par sexe / race? pouvez-vous développer votre réponse s'il vous plaît?
suprvisr

Réponses:


27

Dans ce contexte particulier, l'ACP est principalement utilisée pour tenir compte des variations spécifiques à la population dans la distribution des allèles sur les SNP (ou d'autres marqueurs d'ADN, bien que je ne connaisse que le cas de SNP) faisant l'objet d'une enquête. Une telle «sous-structure de la population» résulte principalement de la variation des fréquences des allèles mineurs dans des ancêtres génétiquement éloignés (par exemple, japonais et noir-africain ou européen-américain). L'idée générale est bien expliquée dans Population Structure and Eigenanalysis , par Patterson et al. ( PLoS Genetics 2006, 2 (12)), ou le numéro spécial du Lancet sur l'épidémiologie génétique (2005, 366; la plupart des articles se trouvent sur le Web, à commencer par Cordell & Clayton, Genetic Association Studies ).

La construction des axes principaux découle de l'approche classique de l'ACP, qui est appliquée à la matrice à l'échelle (individus par SNP) des génotypes observés (AA, AB, BB; disons que B est l'allèle mineur dans tous les cas), à l'exception que une normalisation supplémentaire pour tenir compte de la dérive de la population pourrait être appliquée. Tout cela suppose que la fréquence de l'allèle mineur (prenant la valeur en {0,1,2}) peut être considérée comme numérique, c'est-à-dire que nous travaillons sous un modèle additif (également appelé dosage allélique) ou tout équivalent qui aurait du sens . Comme les CP orthogonaux successifs expliqueront la variance maximale, cela permet de mettre en évidence des groupes d'individus différant au niveau de la fréquence des allèles mineurs. Le logiciel utilisé pour cela est connu sous le nom d' Eigenstrat . Il est également disponible dans leegscore()fonction du package GenABEL R (voir aussi GenABEL.org ). Il convient de noter que d'autres méthodes pour détecter la sous-structure de la population ont été proposées, en particulier la reconstruction de grappes basée sur un modèle (voir les références à la fin). Plus d'informations peuvent être trouvées en parcourant le projet Hapmap et le tutoriel disponible provenant du projet Bioconductor . (Recherchez les jolis didacticiels de Vince J Carey ou de David Clayton sur Google).

±6Stratification de la population dans l'aide en ligne.

Étant donné que l'analyse propre permet de découvrir une certaine structure au niveau des individus, nous pouvons utiliser ces informations lorsque nous essayons d'expliquer les variations observées dans un phénotype donné (ou toute distribution qui pourrait être définie selon un critère binaire, par exemple la maladie ou le cas-contrôle). situation). Plus précisément, nous pouvons ajuster notre analyse avec ces PC (c.-à-d. Les scores factoriels des individus), comme illustré dans l' analyse en composantes principales corrige la stratification dans les études d'association à l'échelle du génome , par Price et al. ( Nature Genetics 2006, 38 (8)), et des travaux ultérieurs (il y avait une belle image montrant les axes de variation génétique en Europe dans Genes miroir geography within Europe; Nature 2008; Fig 1A reproduite ci-dessous). Notez également qu'une autre solution consiste à effectuer une analyse stratifiée (en incluant l'ethnicité dans un GLM) - cela est facilement disponible dans le package snpMatrix , par exemple.

les gènes reflètent la géographie en europe

Les références

  1. Daniel Falush, Matthew Stephens et Jonathan K Pritchard (2003). Inférence de la structure de la population à l'aide de données de génotype multilocus: loci liés et fréquences alléliques corrélées . Genetics , 164 (4): 1567–1587.
  2. B Devlin et K Roeder (1999). Contrôle génomique pour les études d'association . Biometrics , 55 (4): 997–1004.
  3. JK Pritchard, M Stephens et P Donnelly (2000). Inférence de la structure de la population à l'aide de données de génotype multilocus . Genetics , 155 (2): 945–959.
  4. Gang Zheng, Boris Freidlin, Zhaohai Li et Joseph L Gastwirth (2005). Contrôle génomique pour les études d'association sous divers modèles génétiques . Biometrics , 61 (1): 186–92.
  5. Chao Tian, ​​Peter K.Gregersen et Michael F. Seldin1 (2008). Prise en compte de l'ascendance: sous-structure de la population et études d'association à l'échelle du génome . Human Molecular Genetics , 17 (R2): R143-R150.
  6. Kai Yu, Sélection de la sous-structure et du contrôle des populations dans les études d'association à l'échelle du génome .
  7. Alkes L. Price, Noah A. Zaitlen, David Reich et Nick Patterson (2010). Nouvelles approches de la stratification de la population dans les études d'association à l'échelle du génome , Nature Reviews Genetics
  8. Chao Tian et al. (2009). Sous-structure génétique de la population européenne: Définition supplémentaire des marqueurs informatifs de l'ascendance pour distinguer les divers groupes ethniques européens , Médecine moléculaire, 15 (11-12): 371–383.

Merci beaucoup. Naturellement, d'autres questions s'ensuivent alors: 1) Que se passe-t-il si j'ignore le PCA et stratifie mon échantillon GWAS uniquement par GENRE / RACE / AGE et ignore le PCA. Comment reflètera-t-il l'analyse de mon association et son résultat? 2) Si en fait je veux utiliser PCA, combien de SNPS dois-je avoir génotypé au moins pour avoir une PCA véridique? Est-ce que 200 suffisent? Doivent-ils être uniformément dispersés sur tous les chromosomes? 3) Quels SNP sont utilisés dans PCA? Est-ce un ensemble prédéfini ou un autre?
suprvisr

@suprvisr Je peux y répondre directement ou mettre à jour ma réponse, mais je pense qu'il est préférable de poser une nouvelle question (qch avec l'idée des "avantages et inconvénients de l'ajustement avec l'ACP par rapport à la stratification") et de créer un lien vers celle-ci afin que les gens peut clairement établir les connexions nécessaires.
chl

@AndyFrost a suggéré que les éléments suivants peuvent avoir les chiffres référencés: goo.gl/jNXx0x et l'image que vous pouvez référencer peut être dans goo.gl/TcK3g8 .
gung - Rétablir Monica

@chl Pourriez-vous s'il vous plaît expliquer ce que vous entendez par ceci: "Ce qui est généralement fait dans ce cas est d'appliquer l'APC de manière itérative, et de supprimer les individus dont les scores sont inférieurs à ± 6 ± 6 SD sur au moins l'un des 20 premiers principaux axes ". Je cherchais une réponse à mon message ici: biostars.org/p/180336
MAPK
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.