Comment tirer des conclusions valables du «big data»?

Le "big data" est omniprésent dans les médias. Tout le monde dit que le "big data" est le gros problème pour 2012, par exemple, un sondage KDNuggets sur des sujets d'actualité pour 2012 . Cependant, j'ai de profondes préoccupations ici. Avec le Big Data, tout le monde semble content d’obtenir quoi que ce soit . Mais ne violons-nous pas tous les principes statistiques classiques tels que les tests d'hypothèses et l'échantillonnage représentatif?

Tant que nous ne faisons que des prédictions sur le même ensemble de données, cela devrait aller. Donc, si j'utilise les données Twitter pour prédire le comportement des utilisateurs de Twitter, c'est probablement correct. Cependant, en utilisant des données Twitter pour prédire, par exemple, Elections néglige complètement le fait que les utilisateurs de Twitter ne constituent pas un échantillon représentatif de la population entière. De plus, la plupart des méthodes ne pourront en réalité pas faire la différence entre une véritable humeur «populaire» et une campagne. Et Twitter est plein de campagnes. Ainsi, lorsque vous analysez Twitter, vous vous retrouvez rapidement à mesurer les campagnes et les robots. (Voir par exemple "Yahoo prédit les vainqueurs politiques de l'Amérique"qui est plein de sondages et "l'analyse des sentiments est beaucoup mieux". Ils ont prédit que "Romney a plus de 90% de chances de remporter la nomination et de remporter la primaire de Caroline du Sud" (il avait 28%, tandis que Gingrich en avait 40%).

Savez-vous que d'autres big data ont échoué ? Je me souviens à peu près qu'un scientifique a prédit que vous ne pourriez pas entretenir plus de 150 amitiés. En fait, il n'avait découvert qu'une limite de cap chez Friendster ...

En ce qui concerne les données Twitter, ou en réalité toutes les "données volumineuses" collectées sur le Web, je pense que souvent, les gens introduisent même un biais supplémentaire par la manière dont ils collectent leurs données. Peu auront tous de Twitter. Ils auront un certain sous-ensemble qu'ils spidered, et ceci est juste un autre biais dans leur ensemble de données.

Le fractionnement des données en un ensemble de tests ou pour effectuer une validation croisée n'aidera probablement pas beaucoup. L'autre ensemble aura le même parti pris. Et pour le Big Data, j'ai besoin de "compresser" mes informations si fortement qu'il est peu probable que je sur-utilise.

J'ai récemment entendu cette blague, avec le scientifique du Big Data qui a découvert qu'il y a environ 6 sexes dans le monde ... et je peux imaginer qu'il en soit ainsi ... "Homme, Femme, Orc, Furry, Oui et Non".

Alors, quelles méthodes devons-nous utiliser pour retrouver une validité statistique dans l'analyse, en particulier lorsque nous essayons de prédire quelque chose en dehors du jeu de données "Big Data"?

— Anony-Mousse
source

Réponses:

Vos peurs sont bien fondées et perspicaces. Yahoo et probablement plusieurs autres sociétés font des expériences aléatoires sur les utilisateurs et le font bien. Mais les données d'observation sont difficiles à obtenir. Il est courant de croire que les problèmes s'atténuent à mesure que la taille de l'échantillon augmente. Ceci est vrai pour la variance, mais le biais reste constant lorsque n augmente. Lorsque le biais est important, un très petit échantillon vraiment aléatoire ou une étude randomisée peut avoir plus de valeur que 100 000 000 d'observations.

— Frank Harrell
source

Les mégadonnées sont probablement un domaine dans lequel la décomposition de la variance de biais n'est pas utile - la qualité et la gestion des données sont plus importantes. En effet , nous ne pouvons pas espérer connaître tous les points de données ou même des cas particuliers - juste un trop grand nombre d'entre eux

— probabilityislogic

Un certain nombre de techniques de conception et d'analyse expérimentales peuvent vous aider à réduire vos biais, mais cela revient toujours à la même chose: il faut savoir ce que l'on fait. L'analyse de données volumineuses présente le même problème que toute autre analyse de données; il souffre d'un manque d'hypothèses.

Un exemple clair est la régression multiple avec sélection variable par étapes. Très bien, dit-on, mais avec 100 variables mesurées, les lois statistiques dictent que certaines d’entre elles montreront une relation significative lorsqu’elles seront évaluées en regardant si le coefficient respectif est significativement différent de zéro. Ainsi, plus il y a de variables dans votre jeu de données, plus vous avez de chances de trouver deux relations présentant une relation (dénuée de sens). Et plus votre jeu de données est grand, plus il y a de chances que des modèles dénués de sens soient dus, par exemple, à un léger effet de confusion. Si vous testez de nombreux modèles (et même avec seulement 10 variables pouvant représenter un grand nombre de modèles), vous en trouverez très probablement un au moins. Est-ce que ça veut dire quelque chose? Non.

Que doit-on faire alors? Utilise ton cerveau:

formuler une hypothèse avant de collecter les données et tester cette hypothèse. C'est la seule façon de vous assurer que vos statistiques racontent réellement une histoire.
Utilisez vos covariables pour stratifier votre échantillon avant de faire certains tests. Exemple stupide: si votre jeu de données comprend 1 000 hommes et 100 femmes, sélectionnez au hasard 50 chacun si vous souhaitez parler d'une population moyenne. C'est en fait quelque chose pour lequel le Big Data est utile: vous avez suffisamment d’échantillons.
Décrivez en détail la population testée afin d'indiquer clairement à quelle population vos conclusions sont formulées.
Si vous utilisez votre grand ensemble de données à des fins exploratrices, tester les hypothèses que vous venez avec au cours de cette exploration sur une nouvelle et différente ensemble de données, pas seulement un sous - ensemble de ce que vous avez recueilli. Et testez-les à nouveau en utilisant toutes les précautions nécessaires.

Ces choses sont toutes évidentes et bien connues. Heck, déjà en 1984, Rosenbaum et Rubin ont montré comment utiliser les scores de propension pour réduire les biais dans les études d’observation, et c’est ce que la plupart des grands ensembles de données sont: des données d’observation. Dans des travaux plus récents de Feng et al. , L’utilisation de la distance de Mahalanobis est également préconisée. Et en fait, un de mes héros de la statistique, Cochran, a écrit une critique de ce problème dès 1973! Et que dire de Rubin, qui a introduit l'échantillonnage apparié multivarié et la correction de régression dès 1979. Les publications anciennes sont sérieusement sous-estimées et trop souvent ignorées, certainement dans un domaine comme les statistiques.

Toutes ces techniques ont des avantages et des inconvénients, et il faut comprendre que réduire le biais n’est pas la même chose que l’éliminer. Mais si vous êtes au courant de:

ce que tu veux tester, et
comment tu le fais

Les données massives ne sont pas une excuse pour produire des résultats erronés.

Edité après la remarque (correc) de @DW qui a souligné que j’avais utilisé le terme «sur-ajustement» dans un mauvais contexte.

— Joris Meys
source

"Plus votre jeu de données est grand, plus il y a de chances que vous sur-fiez sans signification" - En fait, c'est du recul. Plus le nombre de modèles possibles est grand, plus le risque de surapprentissage est grand (toutes choses étant égales par ailleurs). Plus le jeu de données est grand, plus le risque de surajustement est faible (toutes choses étant égales par ailleurs).

— DW

@DW Comment ça? En fait, s'il y a une indépendance absolue dans une simulation, il y a autant de chance pour un modèle significatif avec des jeux de données petits et grands (une simple simulation vous le montre). Hélas, je n'ai pas encore rencontré de jeu de données où l'indépendance est parfaite. Au moment où vous avez par exemple un très petit effet de confusion, les grands ensembles de données sont plus susceptibles de donner des résultats significatifs sans signification que les petits ensembles de données.

— Joris Meys

Bonne réponse - votre commentaire sur la découverte d'effets significatifs fournit une bonne justification pour les méthodes de rétrécissement par rapport aux méthodes "in-or-out" de sélection de modèle.

— probabilityislogic

@DW fait une déclaration à propos de la suralimentation, et semble correcte - d'autant plus que plus le jeu de données est grand, plus il y a de chances que la validation croisée soit modeste pour des sous-ensembles de données. Joris Meys fait une déclaration sur la signification statistique. C'est aussi correct. Mais dans les grands ensembles de données, la signification statistique est sans objet - c'est la taille de l'effet qui compte, car presque tout est "statistiquement significatif".

— zbicyclist

@zbicyclist Observation très correcte. J'avoue avoir mal interprété DW et utilisé le terme surapprentissage dans un contexte erroné. Je me suis trompé.

— Joris Meys