Comparaison entre MaxEnt, ML, Bayes et d'autres types de méthodes d'inférence statistique

21

Je ne suis en aucun cas un statisticien (j'ai suivi un cours de statistique mathématique mais rien de plus), et récemment, en étudiant la théorie de l'information et la mécanique statistique, j'ai rencontré ce truc appelé "mesure d'incertitude" / "entropie". J'ai lu la dérivation de Khinchin comme une mesure d'incertitude et cela avait du sens pour moi. Une autre chose qui avait du sens était la description par Jaynes de MaxEnt pour obtenir une statistique lorsque vous connaissez la moyenne arithmétique d'une ou plusieurs fonctions sur l'échantillon (en supposant que vous acceptiez comme mesure d'incertitude bien sûr). $-\sum p_i\ln p_i$

J'ai donc cherché sur le net pour trouver la relation avec d'autres méthodes d'inférence statistique, et Dieu m'a confondu. Par exemple, cet article suggère, en supposant que j'ai bien compris, que vous obtenez simplement un estimateur ML sous une reformulation appropriée du problème; MacKey, dans son livre, dit que MaxEnt peut vous donner des choses étranges, et vous ne devriez pas l'utiliser même pour une estimation de départ dans une inférence bayésienne; etc. J'ai du mal à trouver de bonnes comparaisons.

Ma question est, pourriez-vous fournir une explication et / ou de bonnes références des points faibles et forts de MaxEnt en tant que méthode d'inférence statistique avec des comparaisons quantitatives avec d'autres méthodes (lorsqu'elles sont appliquées à des modèles de jouets par exemple)?

entropy inference

— Francesco
source

19

Les méthodes d'inférence MaxEnt et bayésienne correspondent à différentes façons d'incorporer des informations dans votre procédure de modélisation. Les deux peuvent être placés sur un terrain axiomatique ( "Axioms of Maximum Entropy" de John Skilling et "Algebra of Probable Inference" de Cox ).

L'approche bayésienne est simple à appliquer si vos connaissances antérieures se présentent sous la forme d'une fonction mesurable à valeur réelle sur votre espace d'hypothèses, dite "antérieure". MaxEnt est simple lorsque les informations proviennent d'un ensemble de contraintes strictes sur votre espace d'hypothèses. Dans la vie réelle, les connaissances ne se présentent ni sous une forme "antérieure" ni sous une forme "contrainte", donc le succès de votre méthode dépend de votre capacité à représenter vos connaissances sous la forme correspondante.

Sur un problème de jouet, la moyenne du modèle bayésien vous donnera la perte de log moyenne la plus faible (moyenne sur de nombreux tirages de modèle) lorsque le précédent correspond à la vraie distribution des hypothèses. L'approche MaxEnt vous offrira la perte de journal la plus faible dans le pire des cas lorsque ses contraintes seront satisfaites (la pire prise sur tous les priors possibles)

ETJaynes, considéré comme un père des méthodes "MaxEnt" s'appuyait également sur les méthodes bayésiennes. À la page 1412 de son livre , il donne un exemple où l'approche bayésienne a abouti à une bonne solution, suivi d'un exemple où l'approche MaxEnt est plus naturelle.

Le maximum de vraisemblance fait essentiellement que le modèle se trouve dans un espace modèle prédéterminé et essaie de l'adapter "aussi dur que possible" dans le sens où il aura la sensibilité la plus élevée aux données de toutes les méthodes de sélection de modèle limitées à ce modèle espace. Alors que MaxEnt et Bayesian sont des cadres, ML est une méthode d'ajustement de modèle concret, et pour certains choix de conception particuliers, ML peut finir par la méthode issue de l'approche bayésienne ou MaxEnt. Par exemple, MaxEnt avec des contraintes d'égalité équivaut à l'ajustement de maximum de vraisemblance d'une certaine famille exponentielle. De même, une approximation de l'inférence bayésienne peut conduire à une solution de maximum de vraisemblance régularisée. Si vous choisissez votre avant de rendre vos conclusions sensibles au maximum aux données, le résultat de l'inférence bayésienne correspondra à l'ajustement du maximum de vraisemblance. Par exemple, $p$ sur les essais de Bernoulli, un tel a priori serait la distribution limite Beta (0,0)

Les succès du Machine Learning dans la vie réelle sont souvent un mélange de diverses philosophies. Par exemple, les "champs aléatoires" sont dérivés des principes MaxEnt. La mise en œuvre la plus populaire de l'idée, le CRF régularisé, consiste à ajouter un "prior" sur les paramètres. En conséquence, la méthode n'est pas vraiment MaxEnt ni Bayésienne, mais influencée par les deux écoles de pensée.

J'ai rassemblé quelques liens sur les fondements philosophiques des approches bayésiennes et MaxEnt ici et ici .

Remarque sur la terminologie: parfois, les gens appellent leur méthode bayésienne simplement si elle utilise la règle de Bayes à un moment donné. De même, "MaxEnt" est parfois utilisé pour une méthode qui favorise les solutions à entropie élevée. Ce n'est pas la même chose que "l'inférence MaxEnt" ou "l'inférence bayésienne" comme décrit ci-dessus

— Yaroslav Bulatov
source

1

Merci. Je ne pensais pas que "La logique de la science" parlait aussi de ce truc, je vais certainement lire ce livre.

— Francesco

19

Pour une critique divertissante des méthodes d'entropie maximale, je vous recommande de lire certains anciens messages de newsgroup sur sci.stat.math et sci.stat.consult, en particulier ceux de Radford Neal:

Je ne suis au courant d'aucune comparaison entre maxent et d'autres méthodes: une partie du problème semble être que maxent n'est pas vraiment un cadre, mais une directive ambiguë ("face à une inconnue, maximisez simplement l'entropie"), qui est interprété de différentes manières par différentes personnes.

— Simon Byrne
source

4

(+1) Ce fil de 2002 est un enfer d'échanges d'idées.

— whuber

1

Notez que la "dérivation wallis" de maxent donnée par Edwin Jaynes dans Probability Theory: The Logic of Science donne une justification "expérimentale" pour maximiser l'entropie. Dans les distributions discrètes, si nous partons du principe d'indifférence (PID), puis effectuons essentiellement un échantillonnage de rejet sur les probabilités, en utilisant les contraintes pour accepter ou rejeter les échantillons uniformes aléatoires. La probabilité résultante est alors arbitrairement proche de la distribution maximale (discrète).

— probabilités

3

Il est vrai que dans le passé, MaxEnt et Bayes ont traité différents types ou formes d'informations. Je dirais que Bayes utilise également des contraintes "dures", la probabilité.

Dans tous les cas, ce n'est plus un problème car la règle de Bayes (pas la règle de produit) peut être obtenue à partir de l'entropie relative maximale (MrE), et pas de manière ambiguë:

C'est un nouveau monde ...