Il y a eu une certaine confusion dans ma tête au sujet de deux types d'estimateurs de la valeur de la population du coefficient de corrélation de Pearson.
A. Fisher (1915) a montré que pour la population normale bivariée, empirique est un estimateur à biais négatif de ρ , bien que le biais ne puisse être pratiquement considérable que pour une petite taille d'échantillon ( n < 30 ). L'échantillon r sous-estime ρ dans le sens où il est plus proche de 0 que ρ . (Sauf lorsque ce dernier est 0 ou ± 1 , car alors r est sans biais.) Plusieurs estimateurs presque sans biais de ρ ont été proposés, le meilleur étant probablementOlkin et Pratt (1958) ont corrigé :
B. On dit que dans la régression observée, surestime la population R au carré correspondant. Ou, avec une régression simple, c'est que r 2 surestime ρ 2 . Sur la base de ce fait, j'ai vu de nombreux textes disant que r est positivement biaisé par rapport à ρ , ce qui signifie une valeur absolue: r est plus éloigné de 0 que ρ (cette affirmation est-elle vraie?). Les textes disent que c'est le même problème que la surestimation du paramètre d'écart type par sa valeur d'échantillon. Il existe de nombreuses formules pour "ajuster" le R 2 observéplus proche de son paramètre de population, le Wherry (1931) étant le plus connu (mais pas le meilleur). La racine d'un tel r 2 adj ajusté est appelée r rétréci :
Deux estimateurs différents de sont présents . Très différent: le premier gonfle r , le second dégonfle r . Comment les réconcilier? Où utiliser / signaler l'un et où - l'autre?
En particulier, peut-il être vrai que l'estimateur "rétréci" est (presque) également sans biais, comme celui "sans biais", mais uniquement dans un contexte différent - dans le contexte asymétrique de la régression. En effet, dans la régression OLS, nous considérons les valeurs d'un côté (le prédicteur) comme fixes, sans erreur aléatoire d'un échantillon à l'autre? (Et pour ajouter ici, la régression n'a pas besoin de normalité bivariée .)