Ou plus encore "ça va être"? Le Big Data rend les statistiques et les connaissances pertinentes d'autant plus importantes mais semble sous-estimer la théorie de l'échantillonnage.
J'ai déjà vu ce battage publicitaire autour du «Big Data» et je ne peux m'empêcher de me demander «pourquoi» voudrais-je tout analyser ? N'y avait-il pas une raison pour que la "théorie de l'échantillonnage" soit conçue / mise en œuvre / inventée / découverte? Je ne comprends pas l'intérêt d'analyser l'ensemble de la "population" de l'ensemble de données. Ce n’est pas parce que vous pouvez le faire que vous devriez (la stupidité est un privilège mais vous ne devez pas en abuser :)
Ma question est donc la suivante: est-il statistiquement pertinent d’analyser l’ensemble des données? Le mieux que vous puissiez faire serait de minimiser les erreurs si vous échantillonniez. Mais le coût de la minimisation de cette erreur en vaut-il vraiment la peine? Est-ce que la "valeur de l'information" en vaut vraiment la peine, les coûts en temps, etc. liés à l'analyse de données massives sur des ordinateurs massivement parallèles?
Même si l’on analyse toute la population, le résultat serait au mieux une estimation avec une probabilité plus élevée d’avoir raison. Probablement un peu plus élevé que l'échantillonnage (ou serait-ce beaucoup plus?) Les connaissances tirées de l'analyse de la population par rapport à l'analyse de l'échantillon seraient-elles très différentes?
Ou devrions-nous l'accepter comme "les temps ont changé"? L'échantillonnage en tant qu'activité pourrait devenir moins important avec suffisamment de puissance de calcul :)
Remarque: je n'essaie pas de lancer un débat, mais de chercher une réponse pour comprendre pourquoi le big data fait ce qu'il fait (c'est-à-dire tout analyser) et ne pas tenir compte de la théorie de l'échantillonnage (ou pas?)