Il existe un manque généralisé de rigueur dans l'utilisation du mot "corrélation" pour la simple raison qu'il peut avoir des hypothèses et des significations très différentes. L’utilisation la plus simple, la plus vague et la plus courante est qu’il existe une vague association, relation ou manque d’indépendance entre une paire statique de variables aléatoires.
Ici, la métrique par défaut à laquelle on se réfère est généralement la corrélation de Pearson , qui est une mesure standardisée de l' association par paire et linéaire entre deux variables distribuées en continu. L'un des abus les plus fréquents chez Pearson est de le déclarer en pourcentage. Ce n'est certainement pas un pourcentage. La corrélation de Pearson , r , va de -1,0 à +1,0, 0 signifiant aucune association linéaire . L’utilisation par défaut de la corrélation de Pearson est un autre problème moins largement reconnu : il s’agit en fait d’une mesure assez stricte et non robuste de la linéarité nécessitant des variables à l’échelle d’intervalle comme entrée (voir l'excellent document de Paul Embrechts surCorrélation et dépendance dans la gestion des risques: propriétés et pièges ici: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).
Embrechts note qu'il existe de nombreuses hypothèses fallacieuses sur la dépendance qui commencent par des hypothèses sur la structure sous-jacente et la forme géométrique de ces relations:
Ces erreurs découlent d'une hypothèse naïve selon laquelle les propriétés de dépendance du monde elliptique sont également valables dans le monde non elliptique.
Embrechts décrit les copules comme une classe beaucoup plus large de métriques de dépendance utilisées dans la finance et la gestion des risques, dont la corrélation de Pearson n'est qu'un type.
Le département de statistique de Columbia a passé l'année universitaire 2013-2014 à développer une compréhension plus approfondie des structures de dépendance: linéaires, non linéaires, monotones, hiérarchiques, paramétriques, non paramétriques, potentiellement très complexes et présentant de grandes différences d'échelle. L’année s’est terminée par un atelier et une conférence de 3 jours qui ont rassemblé la plupart des principaux contributeurs dans ce domaine ( http://datascience.columbia.edu/workshop-and-conference-andparametric-measures-dependence-apr-28-may- 2 )
Parmi ces contributeurs, citons les frères Reshef, désormais célèbres pour leur article scientifique intitulé « Détecter de nouvelles associations dans de grands ensembles de données» en 2011 http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf that a été largement critiqué (voir AndrewGelman.com pour un bon aperçu publié simultanément avec l’événement Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Les Reshefs ont abordé toutes ces critiques dans leur présentation (disponible sur le site Web de la conférence de Columbia), ainsi que dans un algorithme MIC beaucoup plus efficace.
De nombreux autres statisticiens de premier plan ont participé à cet événement, dont Gabor Szekely, actuellement à la NSF à Washington. Szekely a développé ses corrélations de distance et de distance partielle . Deep Mukhopadhay, Temple U, présente son algorithme statistique unifié - un cadre pour les algorithmes unifiés de la science des données - basé sur un travail effectué avec Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . Et plein d'autres. Pour moi, l’un des thèmes les plus intéressants était le large effet de levier et l’utilisation de Reproducing Kernel Hilbert Space (RKHS) et du chi-carré. S'il y avait une approche modale des structures de dépendance à cette conférence, c'était bien la RKHS.
Les manuels classiques de statistiques d’introduction traitent de manière superficielle de la dépendance et reposent généralement sur des présentations du même ensemble de visualisations de relations circulaires ou paraboliques. Des textes plus sophistiqués se plongeront dans Anscombe's Quartet , une visualisation de quatre jeux de données différents possédant des propriétés statistiques simples et similaires, mais des relations extrêmement différentes: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
L'un des points forts de cet atelier était la multitude de structures et de relations de dépendance visualisées et présentées, allant bien au-delà du traitement standard et superficiel. Par exemple, les Reshefs avaient des dizaines d’images miniatures qui ne représentaient qu’un échantillon des non-linéarités possibles. Deep Mukhopadhay avait des images étonnantes de relations extrêmement complexes qui ressemblaient davantage à une vue satellite de l'Himalaya. Les auteurs de manuels de statistiques et de données doivent en prendre note.
À la sortie de la conférence de Columbia avec le développement et la visualisation de ces structures de dépendance par paire extrêmement complexes, il me restait de mettre en doute la capacité des modèles statistiques multivariés à saisir ces non-linéarités et complexités.