Lors de la résolution de problèmes métiers à l'aide de données, il est courant qu'au moins une hypothèse clé selon laquelle les statistiques classiques sous-goupilles sont invalides est invalide. La plupart du temps, personne ne se soucie de vérifier ces hypothèses pour ne jamais le savoir.
Par exemple, le fait qu'un si grand nombre de métriques Web communes soient "longues" (par rapport à la distribution normale) est à présent si bien documenté que nous prenons cela pour acquis. Autre exemple, les communautés en ligne - même dans les communautés comptant des milliers de membres, il est bien établi que la part la plus importante de contribution / participation à nombre de ces communautés est imputable à un groupe minuscule de «super contributeurs». (Par exemple, il y a quelques mois, juste après l'API SO a été mis à disposition en version bêta, un StackOverflow membre a publié une brève analyse des données recueillies il par l'API, son conclusion-- moins d'un pour cent du compte de membres pour la plupart des l'activité sur SO (probablement en posant des questions et en y répondant), un autre 1 à 2% représentait le reste et la très grande majorité des membres ne fait rien).
Les distributions de ce type - encore une fois plus souvent la règle que l'exception - sont souvent mieux modélisées avec une fonction de densité de loi de puissance. Pour ce type de distributions, même le théorème de la limite centrale est problématique à appliquer.
Donc, étant donné l'abondance de telles populations qui intéressent les analystes, et que les modèles classiques fonctionnent mal sur ces données, et que des méthodes robustes et résistantes existent depuis un certain temps (au moins 20 ans, je crois) - pourquoi ne sont-ils pas utilisés plus souvent? (Je me demande aussi pourquoi je ne les utilise pas plus souvent, mais ce n'est pas vraiment une question pour CrossValidated .)
Oui, je sais qu'il existe des chapitres de manuel entièrement consacrés aux statistiques robustes et que je sais qu'il existe (quelques-uns) paquets R ( robustbase est celui que je connais et utilise), etc.
Et pourtant, étant donné les avantages évidents de ces techniques, elles sont souvent clairement les meilleurs outils pour le travail - pourquoi ne les utilisent-elles pas beaucoup plus souvent ? Ne devrions-nous pas nous attendre à ce que des statistiques robustes (et résistantes) soient utilisées beaucoup plus souvent (peut-être même de manière supposée) par rapport aux analogues classiques?
La seule explication de fond (c’est-à-dire technique) que j’ai entendue est que les techniques robustes (de même que pour les méthodes résistantes) n’ont pas le pouvoir / la sensibilité des techniques classiques. Je ne sais pas si cela est effectivement vrai dans certains cas, mais je sais que ce n'est pas vrai dans de nombreux cas.
Un dernier mot de préemption: oui, je sais que cette question n’a pas une seule réponse manifestement correcte; très peu de questions sur ce site font. De plus, cette question est une véritable enquête; ce n'est pas un prétexte pour faire avancer un point de vue - je n'ai pas de point de vue ici, c'est juste une question pour laquelle j'espère des réponses éclairantes.