Comment créer un ensemble d'échantillons représentatif à partir d'un grand ensemble de données global?

10

Quelles sont les techniques statistiques pour créer un ensemble d'échantillons représentatif de l'ensemble de la population (avec un niveau de confiance connu)?

Aussi,

Comment valider, si l'échantillon correspond à l'ensemble de données global?
Est-ce possible, sans analyser l'ensemble de données entier (qui pourrait être des milliards d'enregistrements)?

sampling sample-size validation

— Mohit Ranka
source

8

Si vous ne souhaitez pas analyser l'intégralité de l'ensemble de données, vous ne pouvez probablement pas utiliser l' échantillonnage stratifié , je suggère donc de prendre un grand échantillon aléatoire simple . En prenant un échantillon aléatoire , vous vous assurez que l'échantillon sera, en moyenne, représentatif de l'ensemble des données, et des mesures statistiques standard de précision telles que les erreurs standard et les intervalles de confiance vous diront à quelle distance des valeurs de population vos estimations d'échantillon sont probables être, il n'y a donc pas vraiment besoin de valider qu'un échantillon est représentatif de la population, sauf si vous avez des préoccupations qui a été vraiment échantillonné au hasard.

Quelle est la taille d'un échantillon aléatoire simple? Eh bien, plus l'échantillon est grand, plus vos estimations seront précises. Comme vous disposez déjà des données, les calculs classiques de taille d'échantillon ne sont pas vraiment applicables - vous pouvez aussi bien utiliser autant de votre ensemble de données que cela est pratique pour le calcul. À moins que vous ne prévoyiez de faire des analyses complexes qui rendront le temps de calcul problématique, une approche simple serait de rendre le simple échantillon aléatoire aussi grand que celui qui peut être analysé sur votre PC sans entraîner de paginationou d'autres problèmes de mémoire. Une règle d'or pour limiter la taille de votre jeu de données à pas plus de la moitié de la RAM de votre ordinateur afin d'avoir de l'espace pour le manipuler et laisser de l'espace pour le système d'exploitation et peut-être quelques autres applications plus petites (comme un éditeur et un navigateur Web ). Une autre limitation est que les systèmes d'exploitation Windows 32 bits ne permettront pas que l'espace d'adressage d'une application unique soit supérieur à octets = 2,1 Go, donc si vous utilisez Windows 32 bits, 1 Go peut être un limite raisonnable de la taille d'un ensemble de données. $2^{31}$

Il s'agit alors d'une simple arithmétique pour calculer le nombre d'observations que vous pouvez échantillonner compte tenu du nombre de variables dont vous disposez pour chaque observation et du nombre d'octets que chaque variable prend.

— un arrêt
source

Merci pour votre réponse. Je suppose que je recherche un échantillonnage stratifié. (Je cherchais des algorithmes, qui ne sont pas très coûteux en calcul, car ne pas analyser toute la population, pour faire un ensemble représentatif, n'a même pas de sens. :-))

— Mohit Ranka

2

Sur votre deuxième question d'abord, vous pourriez vous demander: "comment les données ont-elles été saisies?" Si vous pensez que les données ont été saisies de manière relativement arbitraire (c.-à-d. Indépendamment de toute caractéristique observable ou non observable de vos observations qui pourrait influencer votre analyse ultime à l'aide des données), alors vous pourriez considérer les 5 premiers millions, disons, ou cependant vous êtes nombreux à travailler avec, en tant que représentant de l'échantillon complet et sélectionnez au hasard dans ce groupe pour créer un échantillon avec lequel vous pouvez travailler.

Pour comparer deux distributions empiriques, vous pouvez utiliser des parcelles qq et le test non paramétrique à deux échantillons de Kolmogorov – Smirnov pour les différences de distributions (voir, par exemple, ici: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). Dans ce cas, vous testeriez la distribution de chaque variable de votre échantillon par rapport à la distribution de cette variable dans votre ensemble de données "complet" (là encore, il pourrait s'agir de seulement 5 millions d'observations de votre échantillon complet). Le test KS peut souffrir d'une faible puissance (c'est-à-dire qu'il est difficile de rejeter l'hypothèse nulle de pas de différence entre les groupes), mais, avec autant d'observations, vous devriez être d'accord.

— Charlie
source