Est-il judicieux de calculer des intervalles de confiance et de tester des hypothèses lorsque des données de l'ensemble de la population sont disponibles?


10

Est-il judicieux de calculer des intervalles de confiance et de tester des hypothèses lorsque des données de l'ensemble de la population sont disponibles? À mon avis, la réponse est non, car nous pouvons calculer avec précision les vraies valeurs des paramètres. Mais alors, quelle est la proportion maximale de données de la population d'origine qui nous permet d'utiliser les techniques susmentionnées?


3
Si vous utilisez des méthodes d'échantillonnage fini correctes, la variance atteint zéro, tout comme votre échantillon atteint la taille de la population. Autrement dit, il n'y a pas de taille maximale; les formules appropriées fonctionnent comme ils le devraient, jusqu'à . n=N
Glen_b -Reinstate Monica

Je pense que vous devriez le dire plus clairement si la question concerne le cas "échantillon = population" ou le cas "échantillon de population finie".
ttnphns

La première partie de la question porte sur l'échantillon = population et la seconde sur l'échantillon de la population (lorsque la taille de l'échantillon <la taille de la population).
Miroslav Sabo

Réponses:


9

La première question est celle qui n'a pas de réponse généralement acceptée. Ma propre opinion est comme la vôtre, mais d'autres ont soutenu qu'une population peut être considérée comme un échantillon d'une "superpopulation" où la nature exacte d'une superpopulation varie selon le contexte: par exemple, un recensement de toutes les personnes vivant dans un bâtiment pourrait être considéré comme un échantillon de toutes les personnes vivant dans des bâtiments similaires; un recensement de la population des États-Unis (pas que l'on puisse jamais être vraiment complet) pourrait être considéré comme un échantillon d'une super-population d'Américains qui pourrait un jour exister (ou quelque chose comme ça). Je pense que c'est souvent une excuse pour utiliser des valeurs de p; de nombreux scientifiques dans les domaines de fond ne sont pas à l'aise s'ils n'ont pas de valeur p. (Mais c'est mon avis).

La deuxième question semble un peu étrange pour répondre de manière générale. Quand obtenez-vous un échantillon qui représente (disons) plus de la moitié de la population?

Un plus gros problème sera le biais. Pour en revenir au recensement américain, le problème n'est pas simplement qu'il manque des gens, mais que les gens qui lui manquent ne sont pas un échantillon aléatoire de la population totale; ainsi, même si le recensement obtient des réponses de (pour choisir un nombre) 95% de toutes les personnes, si ces 5% restants sont assez différents, alors les résultats seront biaisés.


1
Je pense que si vous calculez ou non des intervalles de confiance pour une statistique de population dépend de si vous voulez faire des inférences sur la population réelle ou pour la "super population" hypothétique. Dans un emploi passé avec un département de la santé de l'État, nous avons signalé des statistiques annuelles telles que des pourcentages de poids à la naissance très bas et des taux de suicide qui rebondissaient d'année en année. Oui, nous rendions compte de l'ensemble de la population, mais il serait stupide de faire dépendre les progrès (et le financement!) De l'État en matière de santé de chaque augmentation ou diminution de ces indicateurs de santé et d'autres indicateurs comme un changement complet de la santé de la population.
RobertF

7

Supposons que seulement 2 des 12 membres du comité soient des femmes.

La proportion peut être considérée comme une statistique descriptive de l'ensemble de la population (le comité). Peut-être faudrait-il faire quelque chose pour corriger le déséquilibre, quelle que soit la manière dont il s'est produit.16

Ou cela peut être considéré comme une estimation de la probabilité qu'une femme soit sélectionnée pour le comité - une propriété du processus de sélection. Vous pouvez mettre des intervalles de confiance autour de lui, tester s'il est significativement différent de la moitié (ou d'une autre hypothèse nulle pertinente), etc. Peut-être que le processus doit être modifié pour le rendre équitable.

Les deux vues, descriptive et inférentielle, ne sont pas contradictoires, mais bien distinctes.

La réponse à la deuxième question est qu'il est logique de calculer les intervalles de confiance pour & tester les hypothèses sur un paramètre de population même si un seul individu n'est pas échantillonné. Il suffit de noter que les IC et les tests doivent tenir compte d'une proportion considérable de la population échantillonnée: voir correction de population finie .

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.