Le problème des corrélations sur les observations complètes par paire
Dans le cas que vous décrivez, le principal problème est l'interprétation. Étant donné que vous utilisez des observations complètes par paire, vous analysez en fait des ensembles de données légèrement différents pour chacune des corrélations, en fonction des observations manquantes.
Prenons l'exemple suivant:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Trois variables dans l'ensemble de données, a
, b
et c
, chacun a des valeurs manquantes. Si vous calculez ici des corrélations sur des paires de variables, vous ne pourrez utiliser que des cas qui n'ont pas de valeurs manquantes pour les deux variables en question. Dans ce cas, cela signifie que vous analyserez uniquement les 3 derniers cas pour la corrélation entre a
et b
, juste les trois premiers cas pour la corrélation entre b
et c
, etc.
Le fait que vous analysez des cas complètement différents lorsque vous calculez chaque corrélation signifie que le modèle de corrélations résultant peut sembler absurde. Voir:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Cela ressemble à une contradiction logique --- a
et b
sont fortement corrélés positivement, et b
et c
sont fortement corrélés positivement, de sorte que vous attendez a
et c
d'être corrélées positivement aussi bien, mais il est en fait une association forte dans la direction opposée. Vous pouvez voir pourquoi beaucoup d'analystes n'aiment pas cela.
Modifier pour inclure des clarifications utiles de whuber:
Notez qu'une partie de l'argument dépend de ce que pourrait signifier une corrélation "forte". Il est tout à fait possible a
et b
aussi bien que b
et c
à « une forte corrélation positive » alors qu'il existe une « forte association dans la direction opposée » entre a
et c
, mais pas tout à fait aussi extrême que dans cet exemple. Le nœud du problème est que la matrice de corrélation (ou covariance) estimée n'est peut-être pas définie positivement: c'est ainsi qu'il faut quantifier «fort».
Le problème du type de disparition
Vous vous demandez peut-être: "Eh bien, n'est-il pas acceptable de supposer simplement que le sous-ensemble de cas dont je dispose pour chaque corrélation suit plus ou moins le même schéma que j'obtiendrais si j'avais des données complètes?" Et oui, c'est vrai --- il n'y a rien de fondamentalement mal à calculer une corrélation sur un sous-ensemble de vos données (bien que vous perdiez de la précision et de la puissance, bien sûr, en raison de la plus petite taille de l'échantillon), tant que les données disponibles sont aléatoires échantillon de toutes les données qui auraient été là si vous n'aviez pas manqué.
Lorsque le manque est purement aléatoire, cela s'appelle MCAR (complètement absent au hasard). Dans ce cas, l'analyse du sous-ensemble de données qui ne manque pas ne biaisera pas systématiquement vos résultats, et il serait peu probable (mais pas impossible) d'obtenir le type de modèle de corrélation fou que j'ai montré dans l'exemple ci-dessus.
Lorsque votre absence est systématique d'une manière ou d'une autre (souvent abrégé MAR ou NI, délimitant deux types différents de disparition systématique), vous avez des problèmes beaucoup plus graves, à la fois en termes d'introduction potentielle de biais dans vos calculs et en termes de votre capacité à généraliser votre résultats à la population d'intérêt (car l'échantillon que vous analysez n'est pas un échantillon aléatoire de la population, même si votre ensemble de données complet l'aurait été).
Il y a beaucoup de grandes ressources disponibles pour en apprendre davantage sur les données manquantes et comment y faire face, mais ma recommandation est Rubin:
un classique ,
et un article plus récent