Pourquoi les statisticiens n'utilisent-ils pas l'information mutuelle comme mesure d'association?

J'ai vu quelques discussions de non-statisticiens où ils semblent réinventer des mesures de corrélation en utilisant des informations mutuelles plutôt que de régression (ou des tests statistiques équivalents / étroitement liés).

Je suppose qu'il y a une bonne raison pour laquelle les statisticiens n'adoptent pas cette approche. D'après mon profane, les estimateurs de l'entropie / information mutuelle ont tendance à être problématiques et instables. Je suppose que le pouvoir est également problématique en conséquence: ils essaient de contourner cela en affirmant qu'ils n'utilisent pas de cadre de test paramétrique. Habituellement, ce type de travail ne se soucie pas des calculs de puissance, ni même des intervalles de confiance / crédibles.

Mais pour prendre la position d'un défenseur du diable, la convergence lente est-elle si importante lorsque les ensembles de données sont extrêmement volumineux? De plus, ces méthodes semblent parfois «fonctionner» dans le sens où les associations sont validées par des études de suivi. Quelle est la meilleure critique contre l'utilisation d'informations mutuelles comme mesure d'association et pourquoi n'est-elle pas largement utilisée dans la pratique statistique?

modifier: En outre, existe-t-il de bons articles qui couvrent ces questions?

correlation mutual-information

— user4733
source

L'IM est une mesure d'association entre deux variables discrètes. Ce n'est pas vraiment un paramètre commun dans les statistiques générales (pourrait être dans certains sous-domaines spécialisés). Mais dans ce cadre, je vois qu'il est utilisé assez fréquemment. Certes, lorsque je rencontre des personnes appliquées utilisant la corrélation de Pearson sur des ensembles de données discrets bivariés, je leur signale MI.

— user603

Voir aussi stats.stackexchange.com/questions/1052/… Cependant, la discussion ici est déjà, à mon avis, aussi bonne ou meilleure, donc la question habituelle sur les doublons est théorique.

— Nick Cox

Aussi pour les références voir stats.stackexchange.com/q/20011/1036

— Andy W

Une autre référence générale est Matthew Reimherr et Dan L. Nicolae. 2013. Sur la quantification de la dépendance: un cadre pour l'élaboration de mesures interprétables. Science statistique 28: 116-130.

— Nick Cox

Je pense que vous devriez faire la distinction entre les données catégorielles (discrètes) et les données continues.

Pour les données continues, la corrélation de Pearson mesure une relation linéaire (monotone), la corrélation de rang une relation monotone.

MI d'autre part "détecte" toute relation. Ce n'est normalement pas ce qui vous intéresse et / ou est susceptible d'être du bruit. En particulier, vous devez estimer la densité de la distribution. Mais comme il est continu, vous devez d'abord créer un histogramme [compartiments discrets], puis calculer l'IM. Mais comme le MI permet toute relation, le MI changera à mesure que vous utilisez de plus petits bacs (c'est-à-dire que vous autorisez plus de mouvements). Vous pouvez donc voir que l'estimation de l'IM sera très instable, ne vous permettant pas de mettre des intervalles de confiance sur l'estimation, etc. [Il en va de même si vous effectuez une estimation de densité continue.] Fondamentalement, il y a trop de choses à estimer avant de réellement calculer le MI.

Les données catégorielles, en revanche, s'intègrent assez bien dans le cadre de l'IM (voir G-test), et il n'y a pas beaucoup de choix entre le G-test et le chi-carré.

— seanv507
source

Je fais surtout référence à des cas d'association discrète (par régression, je pensais aux GLM, pas seulement aux OLS). En fait, beaucoup de scientifiques qui étudient des phénomènes complexes (par exemple la génétique) pourraient dire qu'ils sont plus intéressés par ce que vous décrivez (détecter toute relation). L'attrait d'échapper à la critique commune évidente de "et si la forme fonctionnelle de la corrélation est mauvaise? Bien sûr, je veux détecter toute relation!" est fort. Cependant, je pense qu'il y a une erreur sans déjeuner gratuit en jeu ici, mais ce serait négligé que j'essaie de mieux articuler / comprendre.

— user4733

... Je n'étais pas au courant de la relation entre les tests LR et MI, c'est très intéressant!

— user4733