Contexte biologique
Au fil du temps, certaines espèces végétales ont tendance à dupliquer leurs génomes entiers, obtenant une copie supplémentaire de chaque gène. En raison de l'instabilité de cette configuration, bon nombre de ces gènes sont ensuite supprimés, et le génome se réorganise et se stabilise, prêt à être dupliqué à nouveau. Ces événements de duplication sont associés à des événements de spéciation et d'invasion, et la théorie est que la duplication aide les plantes à s'adapter plus rapidement à leurs nouveaux environnements.
Lupinus, un genre de plante à fleurs, a envahi les Andes dans l'un des événements de spéciation les plus rapides jamais détectés, et de plus, il semble avoir plus de copies en double dans son génome que le genre le plus proche, Baptisia.
Et maintenant le problème mathématique:
Les génomes d'un membre de Lupinus et d'un membre de Baptisia ont été séquencés, fournissant des données brutes sur environ 25 000 gènes dans chaque espèce. En interrogeant une base de données de gènes de fonction connue, j'ai maintenant une "meilleure estimation" des fonctions que ce gène pourrait remplir - ainsi, par exemple, Gene1298 pourrait être associé au "métabolisme du fructose, réponse au stress salin, réponse au stress froid". Je veux savoir, s'il y a eu un événement de duplication entre Baptisia et Lupinus, si la perte de gènes a eu lieu au hasard, ou si les gènes remplissant des fonctions particulières étaient plus susceptibles d'être conservés ou supprimés.
J'ai un script qui produira un tableau comme celui illustré ci-dessous. L * est un décompte de tous les gènes de Lupinus associés à la fonction. L 1+ est un nombre de gènes de lupinus associés à la fonction où il existe au moins une copie en double. Je peux le faire produire L 2+, L 3+ etc., bien que L 1+ soit un groupe beaucoup plus fiable que L 2+ en raison du processus de séquençage.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Ce que je voudrais faire, c'est tester, pour chaque fonction génique, s'il y a plus ou moins de gènes avec des doublons que ce à quoi on pourrait s'attendre par pur hasard dans Lupinus et Baptisia, et si Lupinus diffère de Baptisia dans le rapport observé / attendu.
La meilleure chose que j'ai à ce jour
Des études antérieures sur différentes espèces ont utilisé l'analyse d'enrichissement, avec le test exact de Fisher et la correction FDR pour un échantillonnage multiple, pour effectuer un test de contingence sur chaque ligne.
Ce serait bien de l'améliorer; Je ne suis pas sûr que cela semble être la meilleure façon de le faire.
Glen_b a suggéré d'utiliser un GLM pour analyser les données; J'ai joué avec les GLM en JMP8, ce qui a été intéressant, mais j'avoue ne pas vraiment les comprendre.
Cela dit, j'essaie d'utiliser R à la place maintenant.
Pourquoi est-ce que j'utilise cela?
À l'origine, cela devait faire partie d'un court projet de recherche que je fais à l'université, mais s'est maintenant étendu à un énorme projet d'annotation du génome. Pourquoi? Parce que la bioinformatique est cool. Être capable de prendre une chaîne de A, T, C et G et de l'utiliser pour déduire des informations sur des événements qui se sont produits il y a des millions d'années est incroyable.
Inutile de dire que je ne vais pas essayer de soumettre une réponse aimablement fournie comme mon propre travail. Je serais heureux d'inclure une reconnaissance dans le document si j'utilise une méthode suggérée ici dans le travail soumis.