Tukey Median Polish, algorithme est utilisé dans la normalisation RMA des puces à ADN. Comme vous le savez peut-être, les données de puces à ADN sont assez bruyantes, elles ont donc besoin d'un moyen plus robuste d'estimer les intensités de sonde en tenant compte des observations pour toutes les sondes et puces à ADN. Il s'agit d'un modèle typique utilisé pour normaliser les intensités des sondes à travers les réseaux.
i = 1 , … , I
Ouije j= μje+ αj+ ϵje j
je = 1 , … , Ij = 1 , … ,J
Où est l' intensité de PM transformée l o g pour la sonde i t h sur le réseau j t h . ϵ i j sont des bruits de fond et ils peuvent être supposés correspondre à du bruit dans une régression linéaire normale. Cependant, une hypothèse distributive sur ϵ peut être restrictive, donc nous utilisons le médian polonais de Tukey pour obtenir les estimations de ^ μ i et ^ α j . Il s'agit d'une méthode robuste de normalisation à travers les tableaux, car nous voulons séparer le signal, l'intensité due à la sonde, de l'effet du tableau,Ouije jl o gjet hjt hϵje jϵμje^αj^ . Nous pouvons obtenir le signal en normalisant pour l'effet tableau ^ α j pour tous les tableaux. Ainsi, il ne nous reste que les effets de sonde plus un peu de bruit aléatoire.ααj^
Le lien que j'ai cité précédemment utilise le polish médian de Tukey pour estimer les gènes différentiellement exprimés ou les gènes "intéressants" en les classant par effet de sonde. Cependant, le document est assez ancien, et probablement à cette époque, les gens essayaient encore de comprendre comment analyser les données de puces à ADN. Le document sur les méthodes empiriques bayésiennes non paramétriques d'Efron a été publié en 2001, mais il est possible qu'il n'ait pas été largement utilisé.
Cependant, nous comprenons maintenant beaucoup de choses sur les microréseaux (statistiquement) et sommes assez sûrs de leur analyse statistique.
Les données de microréseau sont assez bruyantes et RMA (qui utilise le polonais médian) est l'une des méthodes de normalisation les plus populaires, peut-être en raison de sa simplicité. D'autres méthodes populaires et sophistiquées sont: GCRMA, VSN. Il est important de normaliser car l'intérêt est l'effet sonde et non l' effet tableau.
Comme vous vous en doutez, l'analyse aurait pu bénéficier de certaines méthodes qui tirent parti de l'emprunt d'informations entre les gènes. Il peut s'agir de méthodes bayésiennes ou empiriques bayésiennes. Le papier que vous lisez est peut-être ancien et ces techniques n'existaient pas jusque-là.
Concernant votre deuxième point, oui ils modifient probablement les données expérimentales. Mais, je pense, cette modification est pour une meilleure cause, donc justifiable. La raison étant
a) Les données de microréseau sont assez bruyantes. Lorsque l'intérêt est l'effet de sonde, la normalisation des données par RMA, GCRMA, VSN, etc. est nécessaire et peut tirer parti de toute structure spéciale dans les données est bonne. Mais j'éviterais de faire la deuxième partie. C'est principalement parce que si nous ne connaissons pas la structure à l'avance, il vaut mieux ne pas imposer beaucoup d'hypothèses.
b) La plupart des expériences de puces à ADN sont de nature exploratoire, c'est-à-dire que les chercheurs tentent de se limiter à quelques ensembles de gènes «intéressants» pour une analyse ou des expériences supplémentaires. Si ces gènes ont un signal fort, des modifications telles que des normalisations ne devraient pas (substantiellement) affecter les résultats finaux.
Par conséquent, les modifications peuvent être justifiées. Mais je dois faire remarquer qu'exagérer les normalisations peut conduire à de mauvais résultats.