Comment échantillonner lorsque vous ne connaissez pas la distribution

9

Je suis assez nouveau dans les statistiques (une poignée de cours Uni de niveau débutant) et je me posais des questions sur l'échantillonnage à partir de distributions inconnues. Plus précisément, si vous n'avez aucune idée de la distribution sous-jacente, existe-t-il un moyen de "garantir" que vous obtenez un échantillon représentatif?

Exemple pour illustrer: disons que vous essayez de comprendre la répartition mondiale de la richesse. Pour tout individu donné, vous pouvez en quelque sorte découvrir leur richesse exacte; mais vous ne pouvez pas "échantillonner" chaque personne sur Terre. Supposons donc que vous échantillonniez n = 1000 personnes au hasard.

Si votre échantillon ne comprenait pas Bill Gates, vous pourriez penser qu'il n'y a pas de milliardaires.
Si votre échantillon incluait Bill Gates, vous pourriez penser que les milliardaires sont plus courants qu'ils ne le sont réellement.

Dans les deux cas, vous ne pouvez pas vraiment dire à quel point les milliardaires sont courants ou rares; vous ne pourrez peut-être même pas savoir s'il en existe.

Existe-t-il un meilleur mécanisme d'échantillonnage pour un cas comme celui-ci?

Comment diriez-vous a priori quelle procédure d'échantillonnage utiliser (et combien d'échantillons sont nécessaires)?

Il me semble que vous devrez peut-être «échantillonner» un énorme pourcentage de la population pour savoir, avec tout ce qui se rapproche d'une certitude raisonnable, comment les milliardaires sont rares ou courants sur la planète, et que cela est dû à la distribution sous-jacente étant un peu difficile travailler avec.

— syenmesh
source

1

Dans le cas de la répartition de la richesse, beaucoup dépendrait de l'objectif exact. Si, par exemple, l'objectif était d'estimer les niveaux de richesse qui placeraient un individu dans le top 10%, le top 20%, etc., alors il ne serait pas essentiel que l'échantillon comprenne ou non des milliardaires. Mais si l'objectif était d'estimer la proportion de la richesse détenue au total par les 10% les plus riches, alors la façon dont l'échantillonnage a traité les milliardaires serait probablement critique. Le point général ici est que le fait qu'un échantillon soit représentatif est toujours relatif à ce que vous essayez de faire.

— Adam Bailey

vraiment? problème ouvert, les réponses étant bonnes, sont toujours des approximations (parfois meilleures, parfois pires). C'est un problème ouvert, peut-être le seul problème ouvert des statistiques

— Nikos M.

9

$f$ $f$ $f$ $1000$ p (f | b = 0)

$f$ $1000$ p (f | b = 1)

$f < 0.01$

— Tom Minka
source

7

Vous pouvez faire deux choses (séparément ou en combinaison)

Modelez la queue

L'une consiste à modéliser la queue de la distribution à l'aide d'une distribution paramétrique. Les lois sur le pouvoir sont connues pour bien s'adapter à la distribution de la richesse, alors essayez une distribution Pareto. Vous pouvez soit ajuster cette distribution par maximum de vraisemblance, c'est-à-dire en trouvant les paramètres qui représentent le mieux votre échantillon. Ou mieux, vous pouvez mettre un prieur bayésien sur les paramètres et calculer le postérieur complet.

Malheureusement, les lois de puissance sont très sensibles aux paramètres, et sans beaucoup de points de données volumineux dans votre échantillon, il y aura beaucoup d'incertitude sur l'exposant. Le nombre estimé de milliardaires sera sensible à ce paramètre, mais beaucoup moins que la richesse moyenne des milliardaires, donc la situation n'est pas trop mauvaise.

Échantillonnage d'importance

L'autre consiste à changer la façon dont vous collectez votre échantillon. Supposons que vous soupçonnez (comme vous devriez) qu'il y ait plus de milliardaires par habitant à Monaco ou à Zurich qu'à Mogadishiu. Si vous connaissez la population de chacune de ces villes, vous pouvez collecter un plus grand échantillon dans les villes où vous vous attendez à voir plus de milliardaires, et un plus petit dans les autres.

Imaginons que Zurich compte 400 000 personnes et Mogadiscio 1 400 000 et nous souhaitons interroger 9 000 personnes. Nous nous intéressons ici au nombre de millionnaires, pas de milliardaires.

Un échantillon impartial sélectionnerait 2 000 personnes à Zurich et 7 000 à Mogadiscio. Cependant, nous allons biaiser l'échantillon en échantillonnant sept fois plus souvent à Zurich. Nous allons donc «prétendre» que Zurich compte 2 800 000 personnes et nous ajusterons plus tard. Cela signifie que nous interrogerons 6 000 personnes à Zurich au lieu de 2 000 et 4 000 à Mogadiscio.

Disons que nous comptons 21 millionnaires dans notre échantillon de Zurich et seulement 1 dans notre échantillon de Mogadiscio. Puisque nous avons suréchantillonné Zurich 7 fois, nous ne le comptions que pour 3 millionnaires.

Cette procédure diminuera la variance de votre estimateur. Il peut également être utilisé conjointement avec la première méthode, auquel cas vous ajusterez l'échantillonnage d'importance lors de l'ajustement d'une distribution paramétrique.

— Arthur B.
source

6

Je pense qu'une bonne méthode d'échantillonnage est basée sur des connaissances antérieures du système. Dans votre domaine, vous avez des connaissances sur les biais potentiels qui pourraient affecter votre échantillonnage. Si vous n'avez pas cette connaissance, vous pouvez l'acquérir dans la littérature.

Dans votre exemple, vous savez qu'il y a des milliardaires et qu'ils pourraient biaiser votre échantillonnage. Vous pouvez donc décider de stratifier l'échantillonnage par niveau d'éducation, pays, type d'emploi, etc. Il existe plusieurs options.

Essayons avec un autre exemple. Votre objectif est de déterminer l'abondance d'une espèce de souris dans un parc. Dans ce parc, il y a des forêts et des prairies. Par la littérature, vous savez que les souris sont plus abondantes en forêt que les prairies. Vous stratifiez donc votre échantillonnage en fonction de cette caractéristique. Il existe d'autres procédures d'échantillonnage possibles, mais je pense que vos meilleures informations proviendront de la littérature existante.

Et s'il n'y a pas de littérature sur votre domaine? Improbable, mais dans ce contexte, je ferais une pré-étude pour voir quels facteurs doivent être pris en compte pour l'échantillonnage.

— Emilie
source

2

Le fait qu'un échantillon soit représentatif ou non n'a rien à voir avec les mesures observées de l'échantillon. Un échantillon est représentatif si chaque ensemble d'unités d'observation a la même probabilité d'être choisi que tout autre ensemble de la même taille. Bien sûr, cela est difficile à faire, sauf si vous pouvez obtenir une énumération complète de votre espace d'échantillonnage. En supposant que vous pouvez obtenir cela (à partir des données des secteurs de recensement, par exemple), un échantillon aléatoire simple sera représentatif.

Peu importe la façon dont vous obtenez votre échantillon, il y aura toujours au moins trois sources d'erreur distinctes à considérer:

erreur d'échantillonnage: par hasard, vous incluez Bill Gates dans votre échantillon représentatif. Les méthodes statistiques, en particulier les largeurs des intervalles de confiance, etc. sont conçues pour y remédier, à condition que vous ayez une connaissance approximative de la répartition à portée de main (par exemple, la normalité, que la répartition des richesses ne possède certainement pas).

biais d'échantillonnage: l'échantillon n'était pas représentatif. Exemple: Bill Gates a un numéro non répertorié, donc votre enquête téléphonique ne pourra jamais le joindre (à moins que vous n'utilisiez quelque chose comme la "numérotation aléatoire"). Il s'agit d'un exemple extrême, mais le biais d'échantillonnage est très répandu. Il est courant de prendre des échantillons sur place ou de commodité: vous échantillonnez les clients du restaurant pour savoir s'ils aiment l'endroit, à quelle fréquence ils y sont allés et s'ils prévoient y retourner. Les clients récurrents sont beaucoup plus susceptibles d'être échantillonnés que les clients ponctuels, et les échantillons de ce type peuvent être gravement biaisés dans leurs attitudes.

biais de réponse: les mesures elles-mêmes sont inexactes. Cela peut être dû à tout, des dysfonctionnements du compteur au mensonge conscient en passant par les effets quantiques (par exemple le principe d'incertitude de Heisenberg).

— user3697176
source

Cette réponse contient des conseils utiles et couvre de bonnes bases. Je voudrais suggérer que la caractérisation de "représentatif" peut être trop restrictive, cependant, car elle exclut les formes courantes et utiles d'échantillonnage (y compris certaines spécifiquement mentionnées dans d'autres réponses) telles que l'échantillonnage stratifié, l'échantillonnage d'importance et les formes d'échantillonnage systématique . Ne suffirait-il pas de permettre qu'un échantillon soit représentatif lorsque la possibilité d'inclure tout ensemble d'unités d'observation est connue (et peut donc être utilisée pour produire des estimations non biaisées) mais pas nécessairement constante pour tous les ensembles d'une taille donnée?

— whuber

@whuber "Ne suffirait-il pas de permettre qu'un échantillon soit représentatif lorsque la possibilité d'inclure un ensemble d'unités d'observation est connue ...": C'est exact, et je devrais modifier ma réponse pour reconnaître l'échantillonnage stratifié et l'échantillonnage d'importance. Cependant, l'échantillonnage systématique est risqué, et les conseils donnés en lien et ailleurs sont tout simplement faux. S'il y a des modèles systématiques dans les données, un point de départ aléatoire n'éliminera pas le biais, tout ce qu'il fera, c'est de s'assurer que vous ne pourrez pas calculer le biais.

— user3697176

peut-être la meilleure réponse à ce jour (dans le sens de viser directement le point statistique)

— Nikos M.