Considérez l'expérience de biologie cellulaire suivante. Nous comparons différents traitements de cellules en culture. Chaque traitement est répliqué dans plusieurs puits (microtitrage) , indexés par la variable . Pour mesurer la réponse au traitement dans le puits , un total de micrographies ou champs non chevauchants sont enregistrés. Ensuite, pour chaque champ dans le puits , un total de cellules est identifié par calcul, moyennant quoi chaque cellule (dans le puits , champ ) est représentée par un ensemble de pixels. Enfin, à chaque pixel est associée une mesure (dérivée des intensités des différents signaux de fluorescence enregistrés sur ce pixel).
Le problème est d'agréger toutes les mesures de pixels pour produire une "mesure raisonnable" de l'effet du traitement sur les cellules traitées avec lui, ainsi qu'une certaine mesure de la "propagation" de .
L'approche standard de ces problèmes consiste à utiliser la moyenne comme «la mesure» et la variance (ou écart-type) comme «l'écart». Dans ce cas, cependant, il existe plusieurs façons non équivalentes de calculer les moyennes et les écarts.
En se concentrant pour l'instant sur les moyens, à un extrême, on pourrait simplement additionner le sur tous les pixels (sans tenir compte de leur distribution sur les cellules, les champs et les puits), et diviser cette somme par le nombre total de pixels ( pour le traitement ):
À l'extrême opposé, nous pourrions faire la moyenne à chaque niveau: calculer d'abord la moyenne de pour chaque cellule, puis calculer la moyenne de pour chaque champ, et ainsi de suite:
En général, ces deux expressions ne seront pas égales. De plus, il existe plusieurs variations entre les deux. À mon avis, il existe 8 façons de procéder (y compris les deux ci-dessus); J'ai énuméré tout dans leur pleine gloire à la fin de ce post. Par exemple, on pourrait calculer cela (numéro 6 dans la liste ci-dessous):
... où est le nombre total de cellules (additionné sur tous les champs de) bien . (La recette encodée par cette expression dit: "calculer la valeur moyenne de pour chaque cellule, à savoir ; puis, pour chaque puits , calcule la moyenne de ces moyennes sur toutes les cellules dans le puits - tenir compte de leur distribution sur les champs -, à savoir ; et, enfin, faire la moyenne de sur tous les puits , ")
Face à toutes ces différentes manières d '«utiliser les moyennes» pour mesurer l'effet du traitement , la question immédiate est, bien sûr, laquelle choisir? Une version plus précise de la question serait: comment puis-je déterminer dans quels scénarios une variante donnée serait appropriée / informative / utile?
Et, plus généralement: y a-t-il des écueils dans le calcul des moyennes des moyennes (des moyennes ...)?
Merci!
(corrections bienvenues)