L'échantillonnage est-il pertinent à l'époque des «données volumineuses»?


54

Ou plus encore "ça va être"? Le Big Data rend les statistiques et les connaissances pertinentes d'autant plus importantes mais semble sous-estimer la théorie de l'échantillonnage.

J'ai déjà vu ce battage publicitaire autour du «Big Data» et je ne peux m'empêcher de me demander «pourquoi» voudrais-je tout analyser ? N'y avait-il pas une raison pour que la "théorie de l'échantillonnage" soit conçue / mise en œuvre / inventée / découverte? Je ne comprends pas l'intérêt d'analyser l'ensemble de la "population" de l'ensemble de données. Ce n’est pas parce que vous pouvez le faire que vous devriez (la stupidité est un privilège mais vous ne devez pas en abuser :)

Ma question est donc la suivante: est-il statistiquement pertinent d’analyser l’ensemble des données? Le mieux que vous puissiez faire serait de minimiser les erreurs si vous échantillonniez. Mais le coût de la minimisation de cette erreur en vaut-il vraiment la peine? Est-ce que la "valeur de l'information" en vaut vraiment la peine, les coûts en temps, etc. liés à l'analyse de données massives sur des ordinateurs massivement parallèles?

Même si l’on analyse toute la population, le résultat serait au mieux une estimation avec une probabilité plus élevée d’avoir raison. Probablement un peu plus élevé que l'échantillonnage (ou serait-ce beaucoup plus?) Les connaissances tirées de l'analyse de la population par rapport à l'analyse de l'échantillon seraient-elles très différentes?

Ou devrions-nous l'accepter comme "les temps ont changé"? L'échantillonnage en tant qu'activité pourrait devenir moins important avec suffisamment de puissance de calcul :)

Remarque: je n'essaie pas de lancer un débat, mais de chercher une réponse pour comprendre pourquoi le big data fait ce qu'il fait (c'est-à-dire tout analyser) et ne pas tenir compte de la théorie de l'échantillonnage (ou pas?)


1
Voir aussi: stats.stackexchange.com/q/22502/7828 - comment tirer des conclusions valables du Big Data.
Anony-Mousse

2
(+1 il y a longtemps) J'aime toujours lire vos questions perspicaces. Ils sont un réel atout pour ce site.
cardinal

1
@ cardinal - J'apprécie sincèrement votre commentaire. Cela veut dire beaucoup venant de toi.
PhD

Réponses:


29

En un mot, oui . Je crois qu'il existe encore des situations claires dans lesquelles l'échantillonnage est approprié, à l'intérieur et à l'extérieur du monde des "données volumineuses", mais la nature des données volumineuses modifiera certainement notre approche en matière d'échantillonnage et nous utiliserons davantage d'ensembles de données qui représentent presque complètement les données sous-jacentes. population.

Sur l’échantillonnage: En fonction des circonstances, il sera presque toujours clair si l’échantillonnage est une bonne chose à faire. L'échantillonnage n'est pas une activité intrinsèquement bénéfique; c'est ce que nous faisons, car nous devons faire des compromis sur le coût de la mise en œuvre de la collecte de données. Nous essayons de caractériser les populations et nous devons sélectionner la méthode appropriée pour collecter et analyser les données relatives à la population. L'échantillonnage a du sens lorsque le coût marginal d'une méthode de collecte ou de traitement de données est élevé. Essayer d'atteindre 100% de la population n'est pas une bonne utilisation des ressources dans ce cas, car il est souvent préférable de s'attaquer à des problèmes tels que le biais de non-réponse plutôt que d'apporter de minimes améliorations à l'erreur d'échantillonnage aléatoire.

En quoi le Big Data est-il différent? Les "données volumineuses" répondent à beaucoup des questions que nous posons depuis longtemps, mais ce qui est "nouveau", c'est que la collecte de données s'effectue à l'aide d'un processus informatisé existant. Le coût marginal de la collecte de données est donc pratiquement nul. Cela réduit considérablement notre besoin d'échantillonnage.

Quand utiliserons-nous toujours l'échantillonnage? Si votre population de "données volumineuses" est la bonne population pour le problème, vous n’utiliserez un échantillonnage que dans quelques cas: nécessité de gérer des groupes expérimentaux distincts, ou si le volume de données est trop important pour être capturé et traité (beaucoup d’entre nous peuvent traiter facilement des millions de lignes de données, la limite s’éloigne donc de plus en plus). S'il semble que je rejette votre question, c'est probablement parce que j'ai rarement rencontré des situations où le volume des données posait problème, que ce soit au stade de la collecte ou du traitement, bien que je sache que beaucoup

La situation qui me semble difficile est celle où votre population de "données volumineuses" ne représente pas parfaitement votre population cible. Les compromis sont donc plus favorables que les oranges. Supposons que vous soyez un planificateur régional des transports et que Google vous propose de vous donner accès à ses journaux de navigation Android pour vous aider. Il serait sans doute intéressant d'utiliser l'ensemble de données, mais la population serait probablement systématiquement biaisée contre les utilisateurs à faible revenu, les utilisateurs des transports en commun et les personnes âgées. Dans une telle situation, les carnets de voyage traditionnels envoyés à un échantillon aléatoire de ménages, bien que plus coûteux et moins nombreux, pourraient toujours constituer la méthode la plus efficace de collecte de données. Mais ce n’est pas simplement une question "d’échantillonnage vs Big Data", c’est


22

Bien que les dispositifs mobiles produisent énormément de Big Data, ils contiennent peu de données utilisables. Si vous souhaitez prédire les modèles de déplacements urbains à l’aide de foursquare, vous risquez de ne pas connaître un ordre de grandeur des flux estimés. Pire encore, vous ne saurez pas si vous êtes surestimé ou sous-estimé ces flux. Vous pouvez obtenir une image incroyablement précise des habitudes de déplacement urbain des utilisateurs foursquare maniacaux, mais à moins que tout le monde soit obligé (1) de garder un smartphone fonctionnel, (2) de lancer l'application foursquare tout le temps et (3) de s'inscrire à n'importe quel endroit où ils restent plus de 10 minutes (c.-à-d., obtenez un recensement électronique; laissez les libertaires se plaindre de ce que Google et Facebook savent tout sur vous), vos données contiendront des biais inconnus et vos Deweys électroniques continueront de vaincre le vrai mot Trumans (cliquable):


(source: whatisasurvey.info )

Si tel était le cas, je m'attendrais à ce que cette partie de l'histoire se répète et que des chercheurs utilisant des méthodes d'échantillonnage plus rigoureuses renversent certaines grandes prévisions "bière + couches" issues du Big Data. Il est surprenant que les enquêtes basées sur les probabilités restent précises même malgré la chute des taux de réponse.


1
(+1) Mais, un utilisateur stéréotypé de Foursquare ne serait-il pas l'antithèse de la paranoïa . ;-)
cardinal

1
Ouais ... probablement un mauvais terme. Laisse-moi changer ça en maniaque!
StasK

2
Le Big Data n'est pas le coupable. C'est comme ça qu'on l'utilise. Lorsqu'il contient des informations et qu'il est appliqué correctement, cela peut être très utile. L'exploration de données n'est pas si mauvaise.
Michael Chernick le

Excellent point sur l'utilisation du Big Data pour les informations de trafic. Étant donné que des entreprises telles que Google et Apple le font déjà, je pense que c'est un excellent exemple de la situation où le Big Data (actuellement disponible) peut être insuffisant pour certains publics, et j'ai également essayé de l'intégrer dans ma réponse.
Jonathan

@ Michael, vous avez raison, bien sûr. Les données coûtent très cher, mais les moyens d’obtenir des informations exploitables ne vont pas en diminuant. Ils sont en train de monter, car il faut à présent passer au crible plus de données pour obtenir les informations utiles.
dimanche

21

Chaque fois que l'on applique des techniques d'inférence statistique, il est important de bien préciser la population sur laquelle on souhaite tirer des conclusions. Même si les données collectées sont très volumineuses, elles peuvent ne concerner qu'une petite partie de la population et ne pas être très représentatives de l'ensemble.

Supposons, par exemple, qu'une société opérant dans un secteur donné ait collecté des «données volumineuses» sur ses clients situés dans un pays donné. S'il souhaite utiliser ces données pour tirer des conclusions sur ses clients existants dans ce pays, l'échantillonnage peut ne pas être très pertinent. Si toutefois il souhaite tirer des conclusions sur une population plus large - clients potentiels ou existants, ou clients d'un autre pays -, il devient essentiel de déterminer dans quelle mesure les clients pour lesquels des données ont été collectées sont représentatifs - en termes de revenu, d'âge, etc. , genre, éducation, etc. - de la population en général.

La dimension temporelle doit également être prise en compte. Si l'objectif est d'utiliser l'inférence statistique pour étayer les prévisions, il faut comprendre que la population s'étendra dans le futur. Si tel est le cas, il devient à nouveau essentiel de déterminer si l'ensemble de données, quelle que soit sa taille, a été obtenu dans des circonstances représentatives de celles pouvant être obtenues à l'avenir.


Bienvenue sur notre site, Adam! (Si vous enregistrez régulièrement, vous trouverez même parfois des occasions d'exercer vos intérêts en géométrie et en théorie des nombres . :-)
whuber

Excellent point sur la nécessité de prendre en compte la population! C'est l'une des grandes façons dont les gens peuvent devenir paresseux à propos du Big Data.
Jonathan

"Même si les données collectées sont très volumineuses, elles peuvent ne concerner qu'une petite partie de la population et ne pas être très représentatives de l'ensemble." Je pense que cette phrase à elle seule répond à de nombreuses questions.
Bemipefe

13

D'après ce que j'ai vu de l'engouement pour les mégadonnées et les données massives, penser à l'échantillonnage et à la population à partir de laquelle votre échantillon est tiré est tout aussi important que jamais - mais pensez encore moins.

Je «vérifie» la classe ML de Stanford et, jusqu'à présent, nous avons traité de la régression et des réseaux de neurones sans aucune mention de l'inférence de population. Étant donné que cette classe a été choisie par six personnes, il y a maintenant énormément de personnes qui savent comment adapter les données sans aucune notion de l’échantillon.


3
Je suis complètement d'accord. En observant l'engouement actuel pour le Machine Learning (principalement les praticiens et les programmeurs), le Big Data et la "science des données", il est ridiculement courant d'ignorer complètement l'échantillonnage, l'inférence, la compréhension du raisonnement statistique et sa signification, et de le sacrifier pour avoir appliqué aveuglément quoi que ce soit. L'algorithme est à la mode. Vous pouvez même voir cela avec des questions et des réponses ici validées. C'est pourquoi je pense aussi que c'est un battage publicitaire qui va bientôt devenir obsolète ou emprunter une épistémologie statistique et devenir ainsi une branche de statistiques (je le vois comme tel de toute façon).
Momo

2
Si cette classe ML ressemble à celle que j'ai audité il y a quelque temps, une hypothèse technique s'est glissée juste avant l'inégalité de Hoeffding selon laquelle les données de formation constituent un échantillon parfaitement aléatoire de la population. Malheureusement, ce n'est presque jamais le cas, du moins d'après mon expérience et dans les exemples d'applications des techniques tout au long du cours. Ce n'est toujours pas le cas lorsque vous utilisez le "Big Data".
Douglas Zare

12

Oui, l'échantillonnage est pertinent et le restera. En fin de compte, l’exactitude d’une estimation statistique dépend généralement de la taille de l’échantillon et non de la population à généraliser. Ainsi, une moyenne ou une proportion moyenne calculée à partir d’un échantillon de 1 000 répondants donnera une estimation d’une certaine précision (par rapport à la population entière à partir de laquelle nous avons effectué l’échantillonnage), quelle que soit la taille de la population (ou Big Data ”sont sont).

Cela dit: Il existe des problèmes et des défis spécifiques qui méritent d’être mentionnés:

  1. Prendre un bon échantillon de probabilité n’est pas toujours facile. Théoriquement, chaque individu de la population à laquelle nous voulons généraliser (sur lequel nous voulons faire des inférences) doit avoir une probabilité connue d'être sélectionné; idéalement, cette probabilité devrait être identique (échantillon de probabilité égale ou EPSEM - Probabilité égale de sélection). Il s’agit là d’une considération importante et il faut bien comprendre comment le processus d’échantillonnage attribue des probabilités de sélection aux membres de la population à laquelle on veut généraliser. Par exemple, peut-on tirer des flux Twitter des estimations précises des sentiments généraux dans la population en général, y compris les personnes sans compte Twitter?
  2. Les mégadonnées peuvent contenir des informations et des détails très complexes. En d'autres termes, l'enjeu n'est pas l'échantillonnage, mais la (micro) segmentation, qui fournit les détails appropriés pour un petit sous-ensemble d'observations pertinentes. Ici, le défi ne consiste pas à échantillonner, mais à identifier la stratification et la segmentation spécifiques des mégadonnées qui fournissent les informations exploitables les plus précises pouvant être transformées en informations précieuses.
  3. Une autre règle générale de mesure de l'opinion est que les erreurs non dues à l'échantillonnage et les biais sont généralement beaucoup plus importants que l'erreur d'échantillonnage et les biais. Ce n'est pas parce que vous traitez plus de 100 milliards d'enregistrements de personnes ayant exprimé une opinion que les résultats sont utiles si vous ne disposez que des données d'un sous-échantillon de 1 000 personnes, en particulier si les questions de l'enquête concernée n'ont pas été bien écrites et ont provoqué des biais.
  4. Parfois, un échantillonnage est nécessaire: par exemple, si on construisait un modèle prédictif à partir de toutes les données, comment le validerait-il? Comment comparer la précision de différents modèles? Lorsqu'il existe des «big data» (référentiels de données très volumineux), il est possible de créer plusieurs modèles et scénarios de modélisation pour différents échantillons et de les valider (les essayer) dans d'autres échantillons indépendants. Si l’on construisait un modèle pour toutes les données, comment le validerait-il?

Vous pouvez consulter notre «révolution du Big Data» ici.


1
Bienvenue sur notre site, Kyra!
whuber

3

De nombreuses méthodes Big Data sont en fait conçues autour de l'échantillonnage.

La question devrait être plus sur la ligne de:

Ne devrions-nous pas aussi utiliser l' échantillonnage systématique avec les données volumineuses?

Une grande partie du «big data» est encore assez fraîche et parfois naïve. K-means, par exemple, peut être parallélisé de manière triviale, et fonctionne donc pour des "données volumineuses" (je ne parlerai pas des résultats, ils ne sont pas très significatifs et ne sont probablement pas très différents de ceux obtenus sur un échantillon!). Autant que je sache, c’est ce que fait la mise en oeuvre de k-signifie dans Mahout.

Cependant, les recherches vont au-delà de la parallélisation naïve (qui peut encore nécessiter un grand nombre d'itérations) et essaient de faire K-means dans un nombre fixe d'itérations. Exemple pour cela:

  • Clustering rapide à l'aide de MapReduce
    Ene, A. et Im, S. et Moseley, B.
    Actes de la 17e conférence internationale ACM SIGKDD sur la découverte de connaissances et l'exploration de données, 2011

Et devinez quoi, leur approche est fortement basée sur l’échantillonnage .

Exemple suivant: forêts de décision . C’est essentiellement le cas: pour plusieurs échantillons de l’ensemble de données, créez chacun un arbre de décision. Peut encore être trivialement parallélisé: placez chaque échantillon sur une machine séparée. Et encore une fois, il s’agit d’une approche basée sur l’échantillonnage.

L'échantillonnage est donc l'un des ingrédients clés des approches Big Data!

Et il n'y a rien de mal à cela.


2

La validation croisée est un exemple spécifique de sous-échantillonnage qui est assez important dans ML / Big Data. Plus généralement, les mégadonnées constituent toujours un échantillon de la population, comme d'autres personnes l'ont mentionné.

Mais, je pense que OP pourrait faire spécifiquement référence à l’échantillonnage s’appliquant à des expériences contrôlées, par opposition à des données d’observation. Généralement, les grandes données sont considérées comme ces dernières, mais pour moi au moins, il y a des exceptions. Je pense par exemple aux essais randomisés, aux tests A / B et aux bandits multiarmés dans le commerce électronique et les réseaux sociaux, comme un "échantillonnage dans des paramètres de données volumineuses".


1

Dans les domaines où le Big Data gagne en popularité: recherche, publicité, systèmes de recommandation tels qu'Amazon, Netflix, il existe une très grosse incitation à explorer l'ensemble des données.

L'objectif de ces systèmes est d'adapter les recommandations / suggestions à chaque membre de la population. En outre, le nombre d'attributs étudiés est énorme. Le système d'analyse Web moyen peut mesurer le taux de clic, le "suivi thermique" des "zones sensibles" d'une page, les interactions sociales, etc., et les comparer à un grand nombre d'objectifs prédéterminés.

Plus important encore, la plupart des endroits où le Big Data est maintenant omniprésent sont des flux de données "en ligne", c’est-à-dire que les données sont constamment ajoutées / mises à jour. Concevoir un plan d'échantillonnage qui couvre tous ces attributs sans biais inhérent et qui donne toujours des résultats prometteurs (lire les marges meilleures) est un défi.

L'échantillonnage reste très pertinent pour les enquêtes, les essais médicaux, les tests A / B, l'assurance de la qualité.

En résumé, l'échantillonnage est très utile lorsque la population à étudier est très grande et que vous vous intéressez aux propriétés macroscopiques de la population. Une vérification à 100% (Big Data) est nécessaire pour exploiter les propriétés microscopiques du système

J'espère que cela t'aides :)


Vous dites donc qu'ils ne veulent pas pouvoir généraliser au-delà des données dont ils disposent pour les données qu'ils ne possèdent pas encore? Ou qu'ils pensent que leur échantillon est si grand qu'ils n'ont pas à s'inquiéter de ces problèmes? Ou que les paramètres sous-jacents changent avec le temps, est-ce que cela n'a pas d'importance tant qu'ils continuent à se mettre à jour à mesure que de nouvelles données arrivent?
Gung - Réintégrer Monica

@gung, le problème n'est pas la taille de l'échantillon, mais le problème de la génération d'un échantillon non biaisé pour un jeu de données comportant un grand nombre d'attributs. Et la généralisation est généralement faite par des algorithmes d’apprentissage automatique, formés sur une partie de l’ensemble de données. Les flux de données en ligne qui arrivent constamment rendent la question de l'échantillonnage secondaire, car les mises à jour par lots peuvent être utilisées pour modifier les paramètres.
Rrampage
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.