Quant au titre, l'idée est d'utiliser des informations mutuelles, ici et après MI, pour estimer la "corrélation" (définie comme "tout ce que je sais sur A quand je connais B") entre une variable continue et une variable catégorielle. Je vais vous dire mes réflexions sur la question dans un instant, mais avant de vous conseiller de lire cette autre question / réponse sur CrossValidated car elle contient des informations utiles.
Maintenant, parce que nous ne pouvons pas intégrer une variable catégorielle, nous devons discrétiser la variable continue. Cela peut être fait assez facilement en R, qui est le langage avec lequel j'ai fait la plupart de mes analyses. J'ai préféré utiliser la cut
fonction, car elle alias également les valeurs, mais d'autres options sont également disponibles. Le fait est qu'il faut décider a priori du nombre de "bins" (états discrets) avant de pouvoir procéder à toute discrétisation.
Le problème principal, cependant, est un autre: MI varie de 0 à ∞, car il s'agit d'une mesure non standardisée de l'unité qui est le bit. Cela rend très difficile son utilisation comme coefficient de corrélation. Ceci peut être partiellement résolu en utilisant le coefficient de corrélation global , ici et après GCC, qui est une version standardisée de MI; GCC est défini comme suit:
Référence: la formule est tirée de Mutual Information as an Nonlinear Tool for Analyzing Stock Market Globalization par Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.
Le GCC varie de 0 à 1 et peut donc facilement être utilisé pour estimer la corrélation entre deux variables. Problème résolu, non? Bon type de. Parce que tout ce processus dépend fortement du nombre de «bacs» que nous avons décidé d'utiliser lors de la discrétisation. Voici les résultats de mes expériences:
Sur l'axe des y, vous avez GCC et sur l'axe des x, vous avez le nombre de «bacs» que j'ai décidé d'utiliser pour la discrétisation. Les deux lignes font référence à deux analyses différentes que j'ai menées sur deux ensembles de données différents (bien que très similaires).
Il me semble que l'utilisation du MI en général et du GCC en particulier est toujours controversée. Pourtant, cette confusion peut être le résultat d'une erreur de mon côté. Dans les deux cas, j'aimerais avoir votre avis sur la question (avez-vous également des méthodes alternatives pour estimer la corrélation entre une variable catégorielle et une variable continue?).