Pourquoi plusieurs tests d'hypothèses paramétriques (sinon tous) supposent-ils un échantillonnage aléatoire?

Des tests comme Z, t et plusieurs autres supposent que les données sont basées sur un échantillonnage aléatoire. Pourquoi?

Supposons que je fais de la recherche expérimentale, où je me soucie beaucoup plus de la validité interne que de la validité externe. Donc, si mon échantillon peut être un peu biaisé, d'accord, car j'ai accepté de ne pas inférer l'hypothèse pour l'ensemble des populations. Et le regroupement sera toujours aléatoire, c'est-à-dire que je choisirai par commodité les participants de l'échantillon, mais je les assignerai au hasard à différents groupes.

Pourquoi ne puis-je pas simplement ignorer cette hypothèse?

— Bruno
source

Si la technique d'échantillonnage introduit un biais, alors ce n'est pas «aléatoire». S'il n'introduit aucun biais, il est «aléatoire» (pour une définition de random ;-). J'ai eu des schémas d'échantillonnage qui ont simplement pris chaque 7ème échantillon pour créer une taille d'échantillon adaptée au contre-échantillon. Cependant, je savais qu'il n'y avait pas d'aspect spécial à cette sélection, donc ce qui peut être considéré comme un processus d'échantillonnage non aléatoire était toujours effectivement aléatoire. C'est la même chose que la sélection des balles 1,2,3,4,5,6 à la loterie. C'est tout aussi aléatoire que n'importe quelle autre séquence.

— Philip Oakley

@PhilipOakley: la sélection des boules 1, 2, 3, 4, 5, 6 à la loterie vous donne les mêmes chances de gagner que toute autre sélection, mais réduit vos gains attendus car vous êtes plus susceptible de devoir partager le prix avec d'autres qui a eu la même idée

— Henry

L'échantillonnage systématique, tel que décrit par @Philip, est souvent analysé comme s'il produisait des échantillons aléatoires simples, mais il présente des pièges. Par exemple, si vous deviez mesurer un processus de fabrication tous les jours et échantillonner toutes les sept mesures, vous seriez sujet à confondre vos résultats avec un effet de jour de la semaine, car (évidemment) vous échantillonneriez le même jour chaque semaine. Vous devez travailler plus dur pour penser à ces subtilités et y remédier lorsque vous traitez avec des échantillons non aléatoires.

— whuber

@whuber, absolument. Il faut bien réfléchir (et largement) à ces choses !! Dans mon cas, j'ai eu des heures de vidéo, avec des centaines d'événements, avec de longs intervalles entre les deux, donc nécessaire pour réduire la taille des données de l'ensemble non-événement pour une régression logistique simple (chaque image considérée indépendamment, peu de changement entre les images), donc il était raisonnable de supprimer beaucoup de trames non liées aux événements. L'aspect séquence temporelle a été examiné séparément.

— Philip Oakley

@Philip Fait intéressant, à peu près au moment où vous écriviez ce commentaire sur le caractère aléatoire qui n'existait pas, le NIST a publié un communiqué de presse affirmant que c'était le cas . Un compte rendu apparaît dans le numéro d'aujourd'hui (4 avril 2018) de Nature .

— whuber

Réponses:

Si vous ne faites pas d'inférence pour un groupe plus large que votre échantillon réel, alors il n'y a pas d'application de tests statistiques en premier lieu, et la question du "biais" ne se pose pas. Dans ce cas, vous devez simplement calculer les statistiques descriptives de votre échantillon, qui sont connues. De même, il n'est pas question de «validité» du modèle dans ce cas - vous observez simplement des variables et enregistrez leurs valeurs, et des descriptions des aspects de ces valeurs.

Une fois que vous décidez d'aller au-delà de votre échantillon, de faire des inférences sur un groupe plus large, vous aurez alors besoin de statistiques et vous devrez tenir compte de problèmes tels que le biais d'échantillonnage, etc. Dans cette application, l'échantillonnage aléatoire devient une propriété utile pour aider à obtenir une fiabilité inférences du groupe d'intérêt plus large. Si vous n'avez pas d'échantillonnage aléatoire (et que vous ne connaissez pas les probabilités de vos échantillons en fonction de la population), il devient difficile / impossible de faire des inférences fiables sur la population.

— Ben - Réintègre Monica
source

Dans la vraie recherche scientifique, il est assez rare de disposer de données issues d'un véritable échantillonnage aléatoire. Les données sont presque toujours des échantillons de commodité. Cela affecte principalement la population à laquelle vous pouvez généraliser. Cela dit, même s'il s'agissait d'un échantillon de commodité, ils venaient de quelque part, il vous suffit d'être clair sur l'endroit et les limites que cela implique. Si vous pensez vraiment que vos données ne sont représentatives de rien, alors votre étude ne vaudra rien à aucun niveau, mais ce n'est probablement pas vrai ¹ . Ainsi, il est souvent raisonnable de considérer vos échantillons comme provenant de quelque part et d'utiliser ces tests standard, au moins dans un sens couvert ou qualifié.

Il existe cependant une philosophie différente des tests, qui fait valoir que nous devrions nous éloigner de ces hypothèses et des tests qui en dépendent. Tukey en était un partisan. Au lieu de cela, la plupart des recherches expérimentales sont considérées (en interne) comme valables parce que les unités d'étude (par exemple, les patients) ont été assignées au hasard aux bras. Compte tenu de cela, vous pouvez utiliser des tests de permutation , qui supposent généralement que la randomisation a été effectuée correctement. Le contre-argument de trop s'inquiéter à ce sujet est que les tests de permutation montreront généralement la même chose que les tests classiques correspondants, et sont plus de travail à effectuer. Encore une fois, des tests standard peuvent être acceptables.

_{1. Pour plus dans ce sens, il peut être utile de lire ma réponse ici: Identifier la population et les échantillons dans une étude .}

— gung - Réintégrer Monica
source

Des tests comme Z, t et plusieurs autres sont basés sur des distributions d'échantillonnage connues des statistiques pertinentes. Ces distributions d'échantillonnage, telles qu'elles sont généralement utilisées, sont définies pour la statistique calculée à partir d'un échantillon aléatoire.

Il peut parfois être possible de concevoir une distribution d'échantillonnage pertinente pour l'échantillonnage non aléatoire, mais en général ce n'est probablement pas possible.

— Michael Lew
source