Réponses:
Par "circulaire", je comprends que la distribution est concentrée sur une région circulaire, comme dans ce tracé de contour d'un pdf.
L'information mutuelle a des propriétés quelque peu analogues à la covariance. La covariance est un nombre qui est 0 pour les variables indépendantes et différent de zéro pour les variables qui dépendent linéairement. En particulier, si deux variables sont identiques, alors la covariance est égale à la variance (qui est généralement un nombre positif). Un problème avec la covariance est qu'elle peut être nulle même si deux variables ne sont pas indépendantes, à condition que la dépendance ne soit pas linéaire.
L'information mutuelle (MI) est un nombre non négatif. Elle est nulle si et seulement si les deux variables sont statistiquement indépendantes. Cette propriété est plus générale que celle de la covariance et couvre toutes les dépendances, y compris les dépendances non linéaires.
Si les deux variables sont identiques, MI est égal à l'entropie de la variable (encore une fois, généralement un nombre positif). Si les variables sont différentes et ne sont pas liées de manière déterministe, alors MI est plus petit que l'entropie. En ce sens, l'IM de deux variables se situe entre 0 et H (l'entropie), avec 0 uniquement si indépendant et H uniquement s'il dépend de façon déterministe.
Veuillez lire l'article suivant de la science - il répond exactement à votre point:
Détection de nouvelles associations dans de grands ensembles de données par David N. Reshef et al.
Du résumé:
Il est de plus en plus important d'identifier des relations intéressantes entre des paires de variables dans de grands ensembles de données. Ici, nous présentons une mesure de la dépendance pour les relations à deux variables: le coefficient d'information maximal (MIC). La MIC capture un large éventail d'associations fonctionnelles et non, et pour les relations fonctionnelles fournit un score qui équivaut à peu près au coefficient de détermination (R ^ 2) des données par rapport à la fonction de régression. La MIC appartient à une classe plus large de statistiques d'exploration non paramétrique basée sur l'information maximale (MINE) pour identifier et classer les relations. Nous appliquons MIC et MINE à des ensembles de données sur la santé mondiale, l'expression des gènes, le baseball des ligues majeures et le microbiote intestinal humain et identifions les relations connues et nouvelles.
Vous trouverez des informations supplémentaires ici: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Les auteurs fournissent même un outil gratuit incorporant la nouvelle méthode qui peut être utilisée avec R et Python: http://www.exploredata.net/