La randomisation est-elle fiable avec de petits échantillons?

Jerome Cornfield a écrit:

L'un des meilleurs fruits de la révolution des pêcheurs a été l'idée de la randomisation, et les statisticiens qui sont d'accord sur peu d'autres choses sont au moins d'accord là-dessus. Mais malgré cet accord et malgré l'utilisation généralisée des procédures d'allocation aléatoire en clinique et dans d'autres formes d'expérimentation, son statut logique, c'est-à-dire la fonction exacte qu'il remplit, est encore obscur.

Cornfield, Jerome (1976). "Contributions méthodologiques récentes aux essais cliniques" . American Journal of Epidemiology 104 (4): 408–421.

Tout au long de ce site et dans une variété de littérature, je vois constamment des affirmations confiantes sur les pouvoirs de la randomisation. Une terminologie forte telle que «cela élimine le problème des variables confondantes» est courante. Voir ici , par exemple. Cependant, plusieurs fois, des expériences sont effectuées avec de petits échantillons (3 à 10 échantillons par groupe) pour des raisons pratiques / éthiques. Ceci est très fréquent dans la recherche préclinique utilisant des animaux et des cultures cellulaires et les chercheurs rapportent généralement des valeurs de p à l'appui de leurs conclusions.

Cela m'a amené à me demander quelle est la qualité de la randomisation pour équilibrer les confusions. Pour ce graphique, j'ai modélisé une situation comparant les groupes de traitement et de contrôle avec une confusion qui pourrait prendre deux valeurs avec une chance de 50/50 (par exemple type1 / type2, masculin / féminin). Il montre la distribution du «% non équilibré» (différence en nombre de type1 entre les échantillons de traitement et de contrôle divisés par la taille de l'échantillon) pour les études d'une variété de petites tailles d'échantillon. Les lignes rouges et les axes de droite montrent l'ecdf.

Probabilité de divers degrés d'équilibre sous randomisation pour de petits échantillons: entrez la description de l'image ici

Deux choses ressortent clairement de cette intrigue (sauf si je me suis trompé quelque part).

1) La probabilité d'obtenir des échantillons parfaitement équilibrés diminue à mesure que la taille de l'échantillon augmente.

2) La probabilité d'obtenir un échantillon très déséquilibré diminue à mesure que la taille de l'échantillon augmente.

3) Dans le cas de n = 3 pour les deux groupes, il y a 3% de chances d'obtenir un ensemble de groupes complètement déséquilibré (tous de type1 dans le contrôle, tous de type2 dans le traitement). N = 3 est courant pour les expériences de biologie moléculaire (par exemple, mesurer l'ARNm avec PCR ou les protéines avec western blot)

Lorsque j'ai examiné le cas n = 3 plus loin, j'ai observé un comportement étrange des valeurs de p dans ces conditions. Le côté gauche montre la distribution globale des valeurs de p calculant à l'aide de tests t dans des conditions de moyennes différentes pour le sous-groupe de type2. La moyenne pour le type 1 était de 0 et sd = 1 pour les deux groupes. Les panneaux de droite montrent les taux de faux positifs correspondants pour les «seuils de signification» nominaux de 0,05 à 0001.

Distribution des valeurs de p pour n = 3 avec deux sous-groupes et des moyennes différentes du deuxième sous-groupe par comparaison via le test t (10000 passages de monte carlo): entrez la description de l'image ici

Voici les résultats pour n = 4 pour les deux groupes: entrez la description de l'image ici

Pour n = 5 pour les deux groupes: entrez la description de l'image ici

Pour n = 10 pour les deux groupes: entrez la description de l'image ici

Comme on peut le voir sur les graphiques ci-dessus, il semble y avoir une interaction entre la taille de l'échantillon et la différence entre les sous-groupes qui se traduit par une variété de distributions de valeurs p sous l'hypothèse nulle qui ne sont pas uniformes.

Pouvons-nous donc conclure que les valeurs de p ne sont pas fiables pour des expériences correctement randomisées et contrôlées avec de petits échantillons?

Code R pour le premier tracé

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

Code R pour les parcelles 2-5

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()

small-sample random-allocation

— Ballon
source

J'ai trouvé votre description des conditions et du problème un peu difficile à comprendre au début. Type I et type II sont des termes techniques différents de votre utilisation du sous-groupe de type 1 et du sous-groupe de type 2. Autant que je sache, vous appliquez un test t aux données d'une distribution avec un mélange de moyens. Est-ce correct?

— Michael Lew

Oui, un mélange de deux distributions normales. "type1" fait référence à N (0,1), type2 est N (moyenne2,1). Où moyenne2 = (2,3,10 ou 100). Désolé, je pourrais le changer en type A, type B si vous pensez que cela pourrait aider?

— Flask

Réponses:

Vous avez raison de souligner les limites de la randomisation dans le traitement des variables de confusion inconnues pour de très petits échantillons. Cependant, le problème n'est pas que les valeurs P ne sont pas fiables, mais que leur signification varie en fonction de la taille de l'échantillon et de la relation entre les hypothèses de la méthode et les propriétés réelles des populations.

Mon point de vue sur vos résultats est que les valeurs de P ont très bien fonctionné jusqu'à ce que la différence dans les moyennes des sous-groupes soit si grande que tout expérimentateur sensé sache qu'il y avait un problème avant de faire l'expérience.

L'idée qu'une expérience peut être réalisée et analysée sans référence à une bonne compréhension de la nature des données est erronée. Avant d'analyser un petit ensemble de données, vous devez en savoir suffisamment sur les données pour pouvoir défendre en toute confiance les hypothèses implicites dans l'analyse. Ces connaissances proviennent généralement d'études antérieures utilisant le même système ou un système similaire, des études qui peuvent être des travaux officiels publiés ou des expériences «préliminaires» informelles.

— Michael Lew
source

Je suis d'accord avec tout ce que vous avez dit, mais les tests t sont souvent effectués "de manière rituelle" comme le dirait Gerd Gigerenzer. Dans la pratique, les personnes effectuant ces tests n'ont pas le temps / l'envie de comprendre les nuances de ce qu'elles font. Pour cette raison, je pense que l'adjectif "peu fiable" peut être approprié. Je connais des chercheurs qui, lorsque vous posez des questions sur la distribution (y en a-t-il eu une haute, ou qu'est-ce qui a causé cette grosse barre d'erreur?) Ne l'ont jamais examinée.

— Flask

Eh bien, ce que les valeurs P «signifient» vraiment est assez différent de ce que la plupart des gens supposent. Même les nombreux articles qui critiquent les valeurs P comme étant «inconciliables avec des preuves» et autres se trompent. Hier, j'ai téléchargé un article sur arXiv qui explore les propriétés des valeurs P et montre comment elles sont liées au type de preuves que les expérimentateurs peuvent utiliser. Son titre est «À P ou pas à P: sur la nature probante des valeurs de P et leur place dans l'inférence scientifique» et son numéro de soumission arXiv est 826269. Il devrait être disponible à partir de lundi.

— Michael Lew

Pourriez-vous jeter un oeil à cette question qui n'a obtenu aucun amour pour une raison quelconque? . Je suis d'accord que les valeurs de p sont quelque chose et votre article peut aider à élucider cela, mais en tant que chercheur, je dois préciser que les bottes au sol pov sont qu'elles nous ont échoué. Soit en raison d'une mauvaise utilisation ou d'une inadéquation innée, cela n'est pas clair. J'ai posé une série de questions ici pour essayer d'obtenir le point de vue des statisticiens à ce sujet.

— Flask

Dans la recherche écologique, l'attribution non aléatoire de traitements à des unités expérimentales (sujets) est une pratique standard lorsque la taille des échantillons est petite et qu'il existe des preuves d'une ou plusieurs variables confondantes. Cette affectation non aléatoire «intercale» les sujets à travers le spectre de variables potentiellement confondantes, ce qui est exactement ce que l'assignation aléatoire est censée faire. Mais pour des échantillons de petite taille, la randomisation est plus susceptible de mal fonctionner (comme démontré ci-dessus) et il peut donc être une mauvaise idée de s'y fier.

Étant donné que la randomisation est fortement préconisée dans la plupart des domaines (et à juste titre), il est facile d'oublier que l'objectif final est de réduire les biais plutôt que d'adhérer à une randomisation stricte. Cependant, il incombe au (x) chercheur (s) de caractériser efficacement la suite de variables confondantes et de réaliser l'attribution non aléatoire d'une manière défendable qui est aveugle aux résultats expérimentaux et utilise toutes les informations et le contexte disponibles.

Pour un résumé, voir pp. 192-198 dans Hurlbert, Stuart H. 1984. Pseudoreplication and the design of field experiences. Monographies écologiques 54 (2) pp.187-211.

— Darren James
source

J'ai bien aimé lire ceci, mais je crains que votre utilisation du terme "biais" dans l'avant-dernier paragraphe ne soit mal interprétée car ce terme a une signification statistique spécifique qui rendrait votre déclaration incorrecte. N'essayez-vous pas plutôt de dire que la randomisation vise à prévenir la confusion (une forme de «biais» au sens courant) plutôt qu'à réduire le biais (comme mesure de l'inexactitude d'un estimateur)?

— whuber

Je fais référence au biais au sens statistique. En statistique, le «biais» est la différence entre une statistique et le paramètre qu'elle estime. Comme vous le mentionnez, le biais d'un estimateur est la différence entre la valeur attendue de l'estimateur et la vraie valeur du paramètre qu'il estime. Dans mon article, par «biais», je faisais référence à la différence entre les statistiques calculées à partir des données et les paramètres qu'ils estiment, par exemple, entre la moyenne de l'échantillon (x bar) et la vraie moyenne (mu).

— Darren James

Pour autant que je sache, l'échantillonnage aléatoire n'est pas utilisé pour réduire le biais, et dans de nombreuses circonstances, on ne peut valablement affirmer qu'il réduit le biais.

— whuber

Tu te trompes. Le but principal de la randomisation est de simuler l'effet de l'indépendance. Pour ce faire, il élimine les biais qui découlent de l'attribution systématique de traitements aux sujets. Ces biais produisent des estimations inexactes - et surtout, des estimations de variance biaisées - et une perte de contrôle des erreurs de types I et II. Même les variables confondantes (qui équivalent vraiment à un manque d'indépendance) ne sont qu'un cas de biais variable omis. Mais vous n'avez pas besoin de me croire sur parole… Si vous n'êtes pas convaincu par l'article de Hurlburt ci-dessus, voici quelques autres ressources à consulter:

— Darren James

Cochran, WG et GM Cox. 1957. Plans expérimentaux. New York: Wiley. Federer, WT 1955. Conception expérimentale. New York: Macmillan. Hinkelmann, K. et Kempthorne, O. 1994. Conception et analyse d'expériences. Wiley: New York. Kuehl, RO 2000. Design of Experiments: Statistical Principles of research design and analysis. Belmont, Californie: Brooks / Cole.

— Darren James