Pourquoi envisager un échantillonnage sans remplacement dans une application pratique?


12

L'échantillonnage avec remplacement a deux avantages par rapport à l'échantillonnage sans remplacement tel que je le vois:

1) Vous n'avez pas à vous soucier de la correction de la population finie.

2) Il est possible que des éléments de la population soient dessinés plusieurs fois - alors vous pouvez recycler les mesures et gagner du temps.

Bien sûr, à partir d'un POV universitaire, il faut étudier les deux méthodes. Mais à partir d'un POV pratique, je ne vois pas pourquoi on envisagerait un échantillonnage sans remplacement, étant donné les avantages du remplacement.

Mais je suis un débutant en statistiques, donc il pourrait y avoir beaucoup de bonnes raisons pour lesquelles sans remplacement pourrait être le choix supérieur - au moins pour des cas d'utilisation spécifiques. Je vous en prie, ne me confondez pas!


3
Astuce: Réfléchissez à l'effet de l'application de la correction de population finie et pourquoi cela pourrait être avantageux. (Notez également que (1) faire des sommes représente presque toujours moins de problèmes et de dépenses que de collecter des données; (2) si vous pouvez distinguer les individus, vous ne devriez pas "recycler" les mesures, mais baser l'inférence uniquement sur les individus distincts.)
Scortchi - Rétablir Monica

Honnêtement, je ne comprends en fait aucune de vos affirmations. Le FPC compense les conséquences numériques du manque d'indépendance des mesures. Mais je ne sais pas pourquoi c'est avantageux. (1) quel est le lien avec ma question? (2) Pourquoi "ne devriez-vous pas" recycler une mesure? N'est-ce pas la conséquence logique directe d'avoir tiré par hasard deux fois le même élément lors de l'échantillonnage avec remplacement?
Raffael

Réponses:


13

Développant la réponse de @Scortchi. . .

Supposons que la population compte 5 membres et que vous disposiez d'un budget pour échantillonner 5 personnes. Vous vous intéressez à la moyenne de population d'une variable X, caractéristique des individus de cette population. Vous pouvez le faire à votre façon et échantillonner au hasard avec remplacement. La variance de la moyenne de l'échantillon sera V (X) / 5.

Par contre, supposons que vous échantillonniez les cinq individus sans remplacement. Ensuite, la variance de la moyenne de l'échantillon est de 0. Vous avez échantillonné la population entière, chaque individu exactement une fois, il n'y a donc pas de distinction entre la «moyenne de l'échantillon» et la «moyenne de la population». Ce sont les mêmes choses.

Dans le monde réel, vous devriez sauter de joie chaque fois que vous devez faire la correction de population finie car (roulement de tambour ...) cela fait baisser la variance de votre estimateur sans que vous ayez à collecter plus de données. Presque rien ne fait ça. C'est comme de la magie: de la bonne magie.

Dire exactement la même chose en mathématiques (faites attention au <et supposez que la taille de l'échantillon est supérieure à 1):

finite sample correction=NnN1<N1N1=1

La correction <1 signifie que l'application de la correction fait baisser la variance, car vous appliquez la correction en la multipliant par rapport à la variance. Variance DOWN == bonne.

En allant dans la direction opposée, complètement à l'écart des mathématiques, réfléchissez à ce que vous demandez. Si vous voulez en savoir plus sur la population et que vous pouvez en échantillonner 5 personnes, est-il probable que vous en apprendrez plus en prenant la chance d'échantillonner le même gars 5 fois ou semble-t-il plus probable que vous en apprendrez plus en vous assurant que vous échantillonnez 5 gars différents?

Le cas du monde réel est presque le contraire de ce que vous dites. Presque jamais vous n'échantillonnez avec remplacement --- c'est seulement lorsque vous faites des choses spéciales comme le bootstrap. Dans ce cas, vous essayez en fait de bousiller l'estimateur et de lui donner une variance "trop ​​grande".


Sous "bootstrapping", je comprends l'utilisation d'un paramètre de l'échantillon à la place du paramètre de la population (que vous auriez dû utiliser) pour estimer un paramètre de la population. Pourquoi seriez-vous intéressé à "bousiller" l'estimateur et à lui donner une variance "trop ​​grande"?
Raffael

1
@ Яaffael Je parle de bootstrap non paramétrique. Vous prenez votre échantillon (disons de taille 100), rééchantillonnez-le avec remplacement (100 fois pour obtenir un échantillon bootstrap de taille 100), puis recalculez votre estimateur d'intérêt. Vous traitez l'échantillon comme une population de jouets, simulez le prélèvement d'un échantillon à partir de celui-ci, calculez un estimateur. Si vous avez échantillonné à partir de la population de jouets sans remplacement, vous copieriez exactement la population de jouets dans l'échantillon, obtenant l'estimation d'origine comme nouvelle estimation (c.-à-d. Variance = 0). Pour éviter cela, vous devez donc échantillonner avec remplacement.
Bill

5

La précision des estimations est généralement plus élevée pour l'échantillonnage sans remplacement par rapport à l'échantillonnage avec remplacement.

n


2

Je ne pense pas que les réponses ici soient totalement adéquates, et elles semblent plaider en faveur du cas limite dans lequel votre quantité de données est très faible.

Avec un échantillon suffisamment grand, ce n'est pas du tout un problème, surtout avec de nombreux rééchantillonnages bootstrap (~ 1000). Si j'ai échantillonné à partir de la distribution réelle un ensemble de données de taille 10 000, et que je rééchantillonne avec remplacement 1000 fois, alors la variance que j'obtiens (par opposition à la variance que j'obtiendrais en ne remplaçant pas ) est totalement négligeable.

Je dirais que la réponse la plus précise est la suivante: le rééchantillonnage sans remplacement est essentiel lors de l'estimation de la confiance d'une statistique de second ordre . Par exemple, si j'utilise un bootstrap pour estimer l'incertitude que j'ai dans une mesure de dispersion. Le dessin avec remplacement d'une telle quantité peut fausser artificiellement les dispersions récupérées.

Pour un exemple concret avec des données réelles, si vous êtes à la hauteur, consultez cet article https://arxiv.org/abs/1612.02827

il discute brièvement de votre question à la page 10


0

J'ai un résultat qui traite sans remplacement pratiquement comme avec remplacement et supprime toutes les difficultés. Notez que les calculs de remplacement sont beaucoup plus faciles. Donc, si une probabilité implique p et q, les probabilités de succès et d'échec, dans le cas de remplacement, la probabilité correspondante dans sans cas de remplacement est obtenue simplement avec le remplacement de p ^ aq ^ b par (Nab) C (Ra) pour tout a et b, où N, R sont le nombre total de boules et le nombre de boules blanches. N'oubliez pas que p est traité comme R / N.

K.Balasubramanian


il y avait une omission. (Nab) C (Ra) / (NCR) est l'expression correcte. Par exemple, le np moyen devient n (N-1-0) / (R-1) / NCR. vous pouvez vérifier un tel résultat.
Krish Balasubramanian
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.