Je suis assez nouveau dans les statistiques (une poignée de cours Uni de niveau débutant) et je me posais des questions sur l'échantillonnage à partir de distributions inconnues. Plus précisément, si vous n'avez aucune idée de la distribution sous-jacente, existe-t-il un moyen de "garantir" que vous obtenez un échantillon représentatif?
Exemple pour illustrer: disons que vous essayez de comprendre la répartition mondiale de la richesse. Pour tout individu donné, vous pouvez en quelque sorte découvrir leur richesse exacte; mais vous ne pouvez pas "échantillonner" chaque personne sur Terre. Supposons donc que vous échantillonniez n = 1000 personnes au hasard.
Si votre échantillon ne comprenait pas Bill Gates, vous pourriez penser qu'il n'y a pas de milliardaires.
Si votre échantillon incluait Bill Gates, vous pourriez penser que les milliardaires sont plus courants qu'ils ne le sont réellement.
Dans les deux cas, vous ne pouvez pas vraiment dire à quel point les milliardaires sont courants ou rares; vous ne pourrez peut-être même pas savoir s'il en existe.
Existe-t-il un meilleur mécanisme d'échantillonnage pour un cas comme celui-ci?
Comment diriez-vous a priori quelle procédure d'échantillonnage utiliser (et combien d'échantillons sont nécessaires)?
Il me semble que vous devrez peut-être «échantillonner» un énorme pourcentage de la population pour savoir, avec tout ce qui se rapproche d'une certitude raisonnable, comment les milliardaires sont rares ou courants sur la planète, et que cela est dû à la distribution sous-jacente étant un peu difficile travailler avec.