Inférence sans vraisemblance - qu'est-ce que cela signifie?

11

Récemment, j'ai pris conscience des méthodes «sans vraisemblance» utilisées dans la littérature. Cependant, je ne sais pas exactement ce que signifie qu'une méthode d'inférence ou d'optimisation est sans vraisemblance .

Dans l'apprentissage automatique, l'objectif est généralement de maximiser la probabilité que certains paramètres correspondent à une fonction, par exemple les poids sur un réseau neuronal.

Alors, quelle est exactement la philosophie d'une approche sans vraisemblance et pourquoi les réseaux contradictoires tels que les GAN entrent-ils dans cette catégorie?

— Moelleux
source

10

Il existe de nombreux exemples de méthodes non basées sur les probabilités en statistiques (je ne connais pas l'apprentissage automatique). Quelques exemples:

Tests de signification pure de Fisher . Basée uniquement sur une hypothèse nulle clairement définie (comme aucune différence entre le lait en premier et le lait en dernier dans l'expérience Lady Tasting Tea. Cette hypothèse conduit à une distribution d'hypothèse nulle, puis à une valeur de p. Aucune probabilité impliquée. Cette machine inférentielle minimale ne peut en soi fournir une base pour l'analyse de puissance (pas d'alternative formellement définie) ou d'intervalles de confiance (pas de paramètre formellement défini).
Les tests de randomisation sont associés à 1. Différence entre le test de randomisation et le test de permutation , qui dans sa forme la plus élémentaire est un test de signification pure.
Le bootstrap se fait sans avoir besoin d'une fonction de vraisemblance. Mais il existe des liens avec les idées de vraisemblance, par exemple la vraisemblance empirique .
Les méthodes basées sur le classement n'utilisent généralement pas la probabilité.
Beaucoup de statistiques solides.
Les intervalles de confiance pour la médiane (ou d'autres quantiles) peuvent être basés sur des statistiques d'ordre. Aucune probabilité n'est impliquée dans les calculs. Intervalle de confiance pour la médiane , meilleur estimateur de la variance de la médiane empirique
V Vapnik a eu l'idée de l' apprentissage transductif qui semble être lié à https://en.wikipedia.org/wiki/Epilogism comme discuté dans le Black Swan Taleb et le Black Swan .
$\text{N}(\mu, \sigma^2)$ $\text{N}(9.37, 2.12^2)$

Au moment où vous avez une fonction de vraisemblance, il existe une immense machine sur laquelle s'appuyer. Les Bayésiens ne peuvent pas s'en passer, et la plupart des autres utilisent la probabilité la plupart du temps. Mais il est souligné dans un commentaire que même les Bayésiens essaient de s'en passer, voir Approximate_Bayesian_computation . Il y a même un nouveau texte sur ce sujet.

Mais d'où viennent-ils? Pour obtenir une fonction de vraisemblance de la manière habituelle, nous avons besoin de beaucoup d'hypothèses qui peuvent être difficiles à justifier.

Il est intéressant de se demander si nous pouvons construire des fonctions de vraisemblance, d'une certaine manière, à partir de certaines de ces méthodes sans vraisemblance. Par exemple, au point 6. ci-dessus, pouvons-nous construire une fonction de vraisemblance pour la médiane à partir (d'une famille de) intervalles de confiance calculés à partir des statistiques d'ordre? Je devrais poser cela comme une question distincte ...

Votre dernière question sur le GAN, je dois la laisser aux autres.

— kjetil b halvorsen
source

7

(+1) Mais voir le calcul bayésien approximatif . (J'ai l'impression que "sans vraisemblance" est plus utilisé pour les procédures où vous vous attendez à devoir établir une fonction de vraisemblance, mais pas nécessaire; plutôt que pour les tests de randomisation et autres pour lesquels vous ne faites évidemment pas ' t.)

— Scortchi - Réintégrer Monica

9

Plus précisément, [les récentes] méthodes sans vraisemblance sont une reformulation des algorithmes ABC, où ABC représente le calcul bayésien approximatif . Cela vise à couvrir les méthodes d'inférence qui ne nécessitent pas l'utilisation d'une fonction de vraisemblance de forme fermée, mais qui visent tout de même à étudier un modèle statistique spécifique. Ils sont exempts de la difficulté de calcul liée à la probabilité, mais pas du modèle qui produit cette probabilité. Voir par exemple

Grelaud, A; Marin, JM; Robert, C; Rodolphe, F; Tally, F (2009). "Méthodes sans vraisemblance pour le choix de modèle dans les champs aléatoires de Gibbs". Analyse bayésienne. 3: 427–442 .
Ratmann, O; Andrieu, C; Wiuf, C; Richardson, S (2009). "Critique de modèle basée sur l'inférence sans vraisemblance, avec une application à l'évolution du réseau de protéines". Actes de l'Académie nationale des sciences des États-Unis d'Amérique. 106: 10576–10581 .
Bazin, E., Dawson, KJ et Beaumont, MA (2010). Inférence sans vraisemblance de la structure de la population et de l'adaptation locale dans un modèle hiérarchique bayésien. Genetics, 185 (2), 587-602 .
Didelot, X; Everitt, RG; Johansen, AM; Lawson, DJ (2011). "Estimation sans vraisemblance des preuves du modèle". Analyse bayésienne. 6: 49–76 .
Gutmann, M. et Corander, J. (2016) Optimisation bayésienne pour l'inférence sans vraisemblance de modèles statistiques basés sur un simulateur Journal of Machine Learning Research .

— Xi'an
source

2

Pour ajouter à la litanie de réponses, les statistiques asymptotiques sont en fait exemptes de vraisemblances.

Une «vraisemblance» fait ici référence au modèle de probabilité des données . Je m'en fiche peut-être. Mais je peux trouver un estimateur simple, comme la moyenne, qui est un résumé adéquat des données et je veux effectuer une inférence sur la moyenne de la distribution (en supposant qu'elle existe, ce qui est souvent une hypothèse raisonnable).

D'après le théorème de la limite centrale, la moyenne a une distribution normale approximative dans le grand N lorsque la variance existe également. Je peux créer des tests cohérents (la puissance passe à 1 lorsque N va à l'infini lorsque null est faux) qui sont de la bonne taille. Bien que je dispose d'un modèle de probabilité (qui est faux) pour la distribution d'échantillonnage de la moyenne dans des tailles d'échantillon finies, je peux obtenir une inférence valide et une estimation non biaisée pour augmenter mon «résumé utile des données» (la moyenne).

Il convient de noter que les tests basés sur l'IC à 95% pour la médiane (c'est-à-dire l'option 6 dans la réponse de @ kjetilbhalvorsen) s'appuient également sur le théorème de la limite centrale pour montrer qu'ils sont cohérents. Il n'est donc pas fou de considérer le test T simple comme un test "non paramétrique" ou "non basé sur la vraisemblance".

— AdamO
source

1

$p(y|x)$ $x$ $y$ $p(y|x) = N(y|\mu(x), \sigma)$ $p(y|x)$

$p(y|x)$

— Luca Thiede
source