Le "big data" est omniprésent dans les médias. Tout le monde dit que le "big data" est le gros problème pour 2012, par exemple, un sondage KDNuggets sur des sujets d'actualité pour 2012 . Cependant, j'ai de profondes préoccupations ici. Avec le Big Data, tout le monde semble content d’obtenir quoi que ce soit . Mais ne violons-nous pas tous les principes statistiques classiques tels que les tests d'hypothèses et l'échantillonnage représentatif?
Tant que nous ne faisons que des prédictions sur le même ensemble de données, cela devrait aller. Donc, si j'utilise les données Twitter pour prédire le comportement des utilisateurs de Twitter, c'est probablement correct. Cependant, en utilisant des données Twitter pour prédire, par exemple, Elections néglige complètement le fait que les utilisateurs de Twitter ne constituent pas un échantillon représentatif de la population entière. De plus, la plupart des méthodes ne pourront en réalité pas faire la différence entre une véritable humeur «populaire» et une campagne. Et Twitter est plein de campagnes. Ainsi, lorsque vous analysez Twitter, vous vous retrouvez rapidement à mesurer les campagnes et les robots. (Voir par exemple "Yahoo prédit les vainqueurs politiques de l'Amérique"qui est plein de sondages et "l'analyse des sentiments est beaucoup mieux". Ils ont prédit que "Romney a plus de 90% de chances de remporter la nomination et de remporter la primaire de Caroline du Sud" (il avait 28%, tandis que Gingrich en avait 40%).
Savez-vous que d'autres big data ont échoué ? Je me souviens à peu près qu'un scientifique a prédit que vous ne pourriez pas entretenir plus de 150 amitiés. En fait, il n'avait découvert qu'une limite de cap chez Friendster ...
En ce qui concerne les données Twitter, ou en réalité toutes les "données volumineuses" collectées sur le Web, je pense que souvent, les gens introduisent même un biais supplémentaire par la manière dont ils collectent leurs données. Peu auront tous de Twitter. Ils auront un certain sous-ensemble qu'ils spidered, et ceci est juste un autre biais dans leur ensemble de données.
Le fractionnement des données en un ensemble de tests ou pour effectuer une validation croisée n'aidera probablement pas beaucoup. L'autre ensemble aura le même parti pris. Et pour le Big Data, j'ai besoin de "compresser" mes informations si fortement qu'il est peu probable que je sur-utilise.
J'ai récemment entendu cette blague, avec le scientifique du Big Data qui a découvert qu'il y a environ 6 sexes dans le monde ... et je peux imaginer qu'il en soit ainsi ... "Homme, Femme, Orc, Furry, Oui et Non".
Alors, quelles méthodes devons-nous utiliser pour retrouver une validité statistique dans l'analyse, en particulier lorsque nous essayons de prédire quelque chose en dehors du jeu de données "Big Data"?