Quelle est la différence entre une population et un échantillon? Quelles variables et statistiques communes sont utilisées pour chacune d’elles, et comment se rapportent-elles?
Quelle est la différence entre une population et un échantillon? Quelles variables et statistiques communes sont utilisées pour chacune d’elles, et comment se rapportent-elles?
Réponses:
La population est l'ensemble des entités à l'étude. Par exemple, la taille moyenne des hommes. Cette population est hypothétique car elle inclut tous les hommes qui ont vécu, sont en vie et vivront dans le futur. J'aime cet exemple car il montre clairement que nous, en tant qu'analystes, choisissons la population que nous souhaitons étudier. En règle générale, il est impossible d’enquêter / de mesurer l’ensemble de la population car tous les membres ne sont pas observables (par exemple, des hommes qui existeront à l’avenir). S'il est possible de dénombrer toute la population, cela est souvent coûteux et prendrait beaucoup de temps. Dans l'exemple ci-dessus, nous avons une population "d'hommes" et un paramètre d'intérêt, leur taille.
Au lieu de cela, nous pourrions prendre un sous-ensemble de cette population appelé échantillon et l’utiliser pour tirer des conclusions sur la population à l’étude, compte tenu de certaines conditions. Ainsi, nous pourrions mesurer la taille moyenne des hommes dans un échantillon de la population, que nous appelons une statistique, et l'utiliser pour tirer des conclusions sur le paramètre d'intérêt de la population. C'est une inférence car il y aura une certaine incertitude et une certaine imprécision dans la formulation de conclusions sur la population à partir d'un échantillon. Cela devrait être évident - notre échantillon compte moins de membres que notre population et nous avons donc perdu certaines informations.
Il existe de nombreuses façons de sélectionner un échantillon et son étude s'appelle la théorie de l'échantillonnage. Une méthode couramment utilisée est appelée échantillonnage aléatoire simple (SRS). Dans le SRS, chaque membre de la population a une probabilité égale d'être inclus dans l'échantillon, d'où le terme "aléatoire". Il existe de nombreuses autres méthodes d'échantillonnage, telles que l'échantillonnage stratifié, l'échantillonnage en grappes, etc., qui présentent toutes des avantages et des inconvénients.
Il est important de se rappeler que l'échantillon que nous tirons de la population n'est qu'un échantillon parmi un grand nombre d'échantillons potentiels. Si dix chercheurs étudiaient tous la même population en tirant leurs propres échantillons, ils pourraient alors obtenir des réponses différentes. Pour revenir à notre exemple précédent, chacun des dix chercheurs peut proposer une taille moyenne d'hommes différente, c'est-à-dire que la statistique en question (taille moyenne) varie d'un échantillon à l'autre. Il s'agit d'une distribution appelée distribution d'échantillonnage. Nous pouvons utiliser cette distribution pour comprendre l'incertitude dans notre estimation du paramètre de population.
La distribution d'échantillonnage de la moyenne de l'échantillon est connue pour être une distribution normale avec un écart type égal à l'écart type de l'échantillon divisé par la taille de l'échantillon. Étant donné que cela pourrait facilement être confondu avec l'écart type de l'échantillon, il est plus commun d'appeler l'écart type de la distribution d'échantillonnage l' erreur type .
La population est l'ensemble des valeurs, ou des individus, qui vous intéressent. L'échantillon est un sous-ensemble de la population et constitue l'ensemble des valeurs que vous utilisez réellement dans votre estimation.
Ainsi, par exemple, si vous voulez connaître la taille moyenne des habitants de la Chine, votre population, c'est-à-dire la population de la Chine. Le problème est qu’il s’agit d’un nombre assez important et que vous ne pourriez pas obtenir de données pour tout le monde. Vous tirez donc un échantillon, c’est-à-dire que vous obtenez des observations ou la hauteur de certaines personnes en Chine (un sous-ensemble de la population, l’échantillon) et vous faites l’inférence sur cette base.
La population est tout dans le groupe d'étude. Par exemple, si vous étudiez le cours des actions Apple, il s’agit des cours historiques, actuels et même de tous les cours à venir. Ou, si vous exploitez une usine d'œufs, ce sont tous les œufs fabriqués par l'usine.
Vous n'avez pas toujours à échantillonner et à faire des tests statistiques. Si votre population est votre famille vivante immédiate, vous n'avez pas besoin d'échantillonnage, car la population est petite.
L'échantillonnage est populaire pour diverses raisons:
Lorsque nous pensons au terme «population», nous pensons généralement aux habitants de notre ville, région, État ou pays et à leurs caractéristiques respectives telles que le sexe, l’âge, l’état matrimonial, l’appartenance ethnique, la religion, etc. En statistique, le terme «population» prend un sens légèrement différent. La «population» dans les statistiques inclut tous les membres d'un groupe défini sur lequel nous étudions ou collectons des informations afin de prendre des décisions en fonction de données.
Une partie de la population s'appelle un échantillon. C'est une proportion de la population, une tranche de celle-ci, une partie de celle-ci et toutes ses caractéristiques. Un échantillon est un groupe scientifiquement constitué qui possède les mêmes caractéristiques que la population - s’il est tiré au hasard (cela peut être difficile à croire, mais c’est vrai!)
Les échantillons prélevés au hasard doivent avoir deux caractéristiques:
* Chaque personne a une chance égale d'être sélectionnée pour votre échantillon; et,
* La sélection d'une personne est indépendante de la sélection d'une autre personne.
Ce qui est génial avec les échantillons aléatoires, c'est que vous pouvez généraliser à la population qui vous intéresse. Ainsi, si vous échantillonnez 500 ménages dans votre communauté, vous pouvez généraliser aux 50 000 ménages qui y vivent. Si vous faites correspondre certaines caractéristiques démographiques des 500 à 50 000, vous verrez qu'elles sont étonnamment similaires.
Une population comprend tous les éléments d'un ensemble de données. Un échantillon consiste en une ou plusieurs observations de la population. BOA, A. (2012, 17)