Moyennes de moyennes (de moyennes, de moyennes…)


8

Considérez l'expérience de biologie cellulaire suivante. Nous comparons différents traitements de cellules en culture. Chaque traitement est répliqué dans plusieurs puits (microtitrage) , indexés par la variable . Pour mesurer la réponse au traitement dans le puits , un total de micrographies ou champs non chevauchants sont enregistrés. Ensuite, pour chaque champ dans le puits , un total de cellules est identifié par calcul, moyennant quoi chaque cellule (dans le puits , champ ) est représentée par un ensemble deTtw{1,2,,W}wFwFwCwFcwFPwFc pixels. Enfin, à chaque pixel est associée une mesure (dérivée des intensités des différents signaux de fluorescence enregistrés sur ce pixel).pXwFcp

Le problème est d'agréger toutes les mesures de pixels pour produire une "mesure raisonnable" de l'effet du traitement sur les cellules traitées avec lui, ainsi qu'une certaine mesure de la "propagation" de .XwFcpXttXt

L'approche standard de ces problèmes consiste à utiliser la moyenne comme «la mesure» et la variance (ou écart-type) comme «l'écart». Dans ce cas, cependant, il existe plusieurs façons non équivalentes de calculer les moyennes et les écarts.

En se concentrant pour l'instant sur les moyens, à un extrême, on pourrait simplement additionner le sur tous les pixels (sans tenir compte de leur distribution sur les cellules, les champs et les puits), et diviser cette somme par le nombre total de pixels ( pour le traitement ):XwFcpPt

1Pw=1WF=1Fwc=1CwFp=1PwFcXwFcp

À l'extrême opposé, nous pourrions faire la moyenne à chaque niveau: calculer d'abord la moyenne de pour chaque cellule, puis calculer la moyenne de pour chaque champ, et ainsi de suite:XwFcXwFcpXwFXwFc

1Ww=1W[1FwF=1Fw[1CwFc=1CwF[1PwFcp=1PwFcXwFcp]]]

En général, ces deux expressions ne seront pas égales. De plus, il existe plusieurs variations entre les deux. À mon avis, il existe 8 façons de procéder (y compris les deux ci-dessus); J'ai énuméré tout dans leur pleine gloire à la fin de ce post. Par exemple, on pourrait calculer cela (numéro 6 dans la liste ci-dessous):

1Ww=1W[1CwF=1Fwc=1CwF[1PwFcp=1PwFcXwFcp]]

... où est le nombre total de cellules (additionné sur tous les champs de) bien . (La recette encodée par cette expression dit: "calculer la valeur moyenne de pour chaque cellule, à savoir ; puis, pour chaque puits , calcule la moyenne de ces moyennes sur toutes les cellules dans le puits - tenir compte de leur distribution sur les champs -, à savoir ; et, enfin, faire la moyenne de sur tous les puits , ")Cw=Fc1wXwFcpXwFc=[pXwFcp]/PwFcpwXwFcCwwXw=[FcXwFc]/CwXwW[wXw]/W

Face à toutes ces différentes manières d '«utiliser les moyennes» pour mesurer l'effet du traitement , la question immédiate est, bien sûr, laquelle choisir? Une version plus précise de la question serait: comment puis-je déterminer dans quels scénarios une variante donnée serait appropriée / informative / utile?t

Et, plus généralement: y a-t-il des écueils dans le calcul des moyennes des moyennes (des moyennes ...)?

Merci!


(corrections bienvenues)
1.1Pw=1WF=1Fwc=1CwFp=1PwFcXwFcp2.1Ww=1W[1PwF=1Fwc=1CwFp=1PwFcXwFcp]wherePw=F=1Fwc=1CwFp=1PwFc13.1Fw=1WF=1Fw[1PwFc=1CwFp=1PwFcXwFcp]whereF=w=1WF=1Fw1,PwF=c=1CwFp=1PwFc14.1Cw=1WF=1Fwc=1CwF[1PwFcp=1PwFcXwFcp]whereC=w=1WF=1Fwc=1CwF15.1Ww=1W[1FwF=1Fw[1PwFc=1CwFp=1PwFcXwFcp]]6.1Ww=1W[1CwF=1Fwc=1CwF[1PwFcp=1PwFcXwFcp]]whereCw=F=1Fwc=1CwF17.1Fw=1WF=1Fw[1CwFc=1CwF[1PwFcp=1PwFcXwFcp]]8.1Ww=1W[1FwF=1Fw[1CwFc=1CwF[1PwFcp=1PwFcXwFcp]]]


1
Vous pouvez faire une anova imbriquée pour déterminer si l'un des effets du traitement est significatif. Une bonne référence est la biométrie de Sokal et Rholf.
aaronjg

Toutes les équations au bas de la question sont égales, car la moyenne arithmétique est une fonction linéaire. La fraction est scalaire, elle peut donc être déplacée en dehors de la somme dans chaque cas. L'ordre des sommes n'est pas important. Tous sont équivalents à .
1WFCPw,F,c,pW,F,C,PXwFcp
naught101

@ naught101: Je suis complètement en désaccord. Pour commencer, l'expression dans votre commentaire n'est même pas cohérente avec la notation que j'ai utilisée dans ma question.
kjo

Avez-vous essayé de les calculer? Notez qu'il y a un point que j'ai manqué: vous mentionnez la variance, et dans ce cas (les moyennes de la variance par rapport à la variance des moyennes) est certainement différent, car la variance n'est pas un opérateur linéaire (il contient une somme de carrés).
naught101

Réponses:


5

Ce n'est pas une réponse directe à votre question ('Quel type de moyenne choisir'), mais plutôt une recommandation pour éviter de calculer des moyennes du tout:

Votre scénario semble ressembler à un cas pour les modèles hiérarchiques / multiniveaux (MLM), car les données sont parfaitement imbriquées. Vous disposez de trois niveaux d'effets aléatoires: pixels (niveau 1) imbriqués dans des cellules (L2), imbriqués dans des champs (L3), imbriqués dans des puits (L4). Les traitements doivent être traités comme des effets fixes.

Vous n'êtes intéressé que par l'effet du traitement; la méthode MLM prend en charge les différentes variances de chaque niveau et vous donne également une estimation de la variance expliquée par quel niveau. Ainsi, vous ne «perdez» aucune variance en traitant une valeur moyenne comme «la mesure», mais vous estimez le modèle au niveau des données brutes.

Cette méthode nécessite cependant un nombre suffisant de groupes pour chaque effet aléatoire (c'est-à-dire suffisamment de pixels, suffisamment de cellules, suffisamment de champs, suffisamment de puits). Comme vous n'êtes pas intéressé par les interactions entre niveaux, les recommandations générales disent quelque chose comme 10 à 30 unités minimum (bien sûr, selon le scénario spécifique, etc.; voir, par exemple, ici ).


Le premier lien que vous avez fourni (modèles hiérarchiques / multiniveaux) semble rompu maintenant.
steko
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.