Une variable catégorielle n'est en fait qu'un ensemble de variables indicatrices. C'est une idée fondamentale de la théorie de la mesure qu'une telle variable est invariante à la réétiquetage des catégories, il n'est donc pas logique d'utiliser l'étiquetage numérique des catégories dans toute mesure de la relation entre une autre variable (par exemple, «corrélation») . Pour cette raison, la mesure de la relation entre une variable continue et une variable catégorielle doit être entièrement basée sur les variables indicatrices dérivées de cette dernière.
Étant donné que vous voulez une mesure de la «corrélation» entre les deux variables, il est logique d'examiner la corrélation entre une variable aléatoire continue et une variable aléatoire indicateur I dérivée d'une variable catégorielle. Soit ϕ ≡ P ( I = 1 ) nous avons:XIϕ≡P(I=1)
Cov(I,X)=E(IX)−E(I)E(X)=ϕ[E(X|I=1)−E(X)],
qui donne:
Corr(I,X)=ϕ1−ϕ−−−−−√⋅E(X|I=1)−E(X)S(X).
XIϕXI=1
C1,...,mC=kIk≡I(C=k)
Corr(Ik,X)=ϕk1−ϕk−−−−−−√⋅E(X|C=k)−E(X)S(X).
We can then define Corr(C,X)≡(Corr(I1,X),...,Corr(Im,X)) as the vector of correlation values for each category of the categorical random variable. This is really the only sense in which it makes sense to talk about 'correlation' for a categorical random variable.
(Note: It is trivial to show that ∑kCov(Ik,X)=0 and so the correlation vector for a categorical random variable is subject to this constraint. This means that given knowledge of the probability vector for the categorical random variable, and the standard deviation of X, you can derive the vector from any m−1 of its elements.)
The above exposition is for the true correlation values, but obviously these must be estimated in a given analysis. Estimating the indicator correlations from sample data is simple, and can be done by substitution of appropriate estimates for each of the parts. (You could use fancier estimation methods if you prefer.) Given sample data (x1,c1),...,(xn,cn) we can estimate the parts of the correlation equation as:
ϕ^k≡1n∑i=1nI(ci=k).
E^(X)≡x¯≡1n∑i=1nxi.
E^(X|C=k)≡x¯k≡1n∑i=1nxiI(ci=k)/ϕ^k.
S^(X)≡sX≡1n−1∑i=1n(xi−x¯)2−−−−−−−−−−−−−−−√.
Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on X then you could estimate the correlation vector directly by maximum likelihood or some other technique.