Dans quelles conditions les estimateurs ponctuels bayésiens et fréquentistes coïncident-ils?


17

Avec un a priori plat, les estimateurs ML (fréquentiste - maximum de vraisemblance) et MAP (bayésien - maximum a posteriori) coïncident.

Plus généralement, cependant, je parle d'estimateurs ponctuels dérivés comme optimiseurs d'une fonction de perte. C'est à dire

(Bayésien)  x (

x^(.)=argminE(L(Xx^(y))|y) (Bayesian) 
x^(.)=argminE(L(xx^(Y))|x)(Frequentist)

est l'opérateur d'espérance, L est la fonction de perte (minimisé à zéro), x ( y ) est l'estimateur, étant donné que les données y , du paramètre x et les variables aléatoires sont désignées par des lettres majuscules.ELx^(y)yx

Quelqu'un connaît-il des conditions sur , le pdf de x et y , la linéarité et / ou la non-biais imposées, où les estimateurs coïncideront?Lxy

Éditer

Comme indiqué dans les commentaires, une exigence d'impartialité telle que l'impartialité est nécessaire pour donner un sens au problème fréquentiste. Les prieurs plats peuvent également être un point commun.

Outre les discussions générales fournies par certaines des réponses, la question est vraiment aussi de fournir des exemples réels . Je pense qu'un important vient de la régression linéaire:

  • les x^=(DD)1Dy est le (BLEU théorème de Gauss-Markov ), à savoir qu'elle minimise la MSE entre fr'equentiste estimateurs linéaire sans biais.
  • si est gaussienne et l'avant est plat, x = ( D ' D ) - 1 D ' y sont les moyennes « postérieur » minimise la perte moyenne de Bayes pour toute fonction convexe de perte.(X,Y)x^=(DD)1Dy

Ici, semble être connu comme matrice de données / conception dans le jargon fréquentiste / bayésien, respectivement.D


Je suppose que vous voulez que la réponse prenne un avant plat? Sinon, bien sûr, il est impossible que les estimations soient raisonnablement censées être les mêmes dans des cas généraux intéressants.
user56834

2
Ce n'est pas une question simple à répondre dans la généralité que vous posez, mais c'est actuellement un sujet de recherche vraiment brûlant, voir par exemple le travail de Judith Rousseau dans ce domaine: ceremade.dauphine.fr/~rousseau/publi.html
Jeremias K

@ JeremiasK, peut-être pouvez-vous expliquer quelque chose à ce sujet dans une réponse?
user56834

1
@ Programmer2134 Je le ferais si je me sentais assez à l'aise avec le matériel, mais je ne le fais pas. Je sais que ce qu'ils font est de dériver un équivalent bayésien d'un CLT, avec certains `` taux de concentration postérieure '' qui vous indiquent à quelle vitesse le paramètre postérieur se concentre sur un point de votre espace de paramètres lorsque vous augmentez la taille de l'échantillon, puis vous finissez fondamentalement jusqu'à trouver des garanties de cohérence de type fréquentiste pour vos estimateurs bayésiens.
Jeremias K

Réponses:


7

La question est intéressante mais quelque peu désespérée à moins que la notion d' estimateur fréquentiste ne soit précisée. Il est certainement pas celui défini dans la question x ( depuis la réponse à la minimisation est x ( y ) = x pour tous y est comme en pointe dansla réponse de Programmer2134. Le problème fondamental est qu'il n'y a pas d'estimateur fréquentiste unique pour un problème d'estimation, sans introduire de contraintes ou de classes d'estimateurs supplémentaires. Sans cela, tous les estimateurs de Bayes sont également des estimateurs fréquentistes.

x^(.)=argminE(L(x,x^(Y))|x)
x^(y)=xy

Comme indiqué dans les commentaires, l' impartialité peut être une telle contrainte, auquel cas les estimateurs de Bayes sont exclus. Mais cette notion fréquentiste se heurte à d'autres notions fréquentistes telles que

  1. l'admissibilité, puisque le phénomène de James-Stein a démontré que les estimateurs non biaisés peuvent être inadmissibles (selon la fonction de perte et la dimension du problème);
  2. invariance sous reparameterisation, puisque la non-polarisation ne se maintient pas sous les transformations.

De plus, l'impartialité ne s'applique qu'à une classe restreinte de problèmes d'estimation. J'entends par là que la classe des estimateurs sans biais d'un certain paramètre ou d'une transformée h ( θ ) est la plupart du temps vide.θh(θ)

En parlant d'admissibilité, autre notion fréquentiste, il existe des paramètres pour lesquels les seuls estimateurs admissibles sont les estimateurs de Bayes et inversement. Ce type de paramètres se rapporte aux théorèmes de classe complets établis par Abraham Wald dans les années 1950. (Il en va de même pour les meilleurs estimateurs invariants qui sont des Bayes sous la mesure de Haar droite appropriée.)


1
Existe-t-il d'autres manières canoniques de restreindre la classe des estimateurs afin que le problème de minimisation soit bien défini et non dégénéré (autre que l'exigence de non biais), qui sont plus proches de celui bayésien?
user56834

3

En général, les estimateurs fréquentiste et bayésien ne coïncident pas, sauf si vous utilisez un aplat dégénéré antérieur. La raison principale en est la suivante: les estimateurs fréquentistes s'efforcent souvent d'être non biaisés. Par exemple, les fréquentistes essaient souvent de trouver l'estimateur sans biais de variance minimale ( http://en.wikipedia.org/wiki/Minimum-variance_unbias_estimator ). Parallèlement, tous les estimateurs bayésiens non dégénérés sont biaisés (au sens fréquentiste du biais). Voir, par exemple, http://www.stat.washington.edu/~hoff/courses/581/LectureNotes/bayes.pdf , Theorem 5.

Pour résumer: La plupart des estimateurs fréquentistes populaires s'efforcent d'être non biaisés, tandis que tous les estimateurs bayésiens sont biaisés. Ainsi, les estimateurs bayésiens et fréquentistes coïncident rarement.


5
Je m'interroge sur la justesse de ces affirmations, étant donné que «la plupart des estimateurs fréquentistes populaires» sont ML et ils ont tendance à être biaisés (selon la paramétrisation). De plus, un bon fréquentateur est profondément préoccupé par la perte et l'admissibilité; un élément clé de cette théorie reconnaît que les procédures admissibles proviennent des procédures de Bayes, d'où - au moins dans ce sens large - le cœur même de la théorie fréquentiste repose sur des estimateurs de Bayes! Je pourrais être persuadé de votre point de vue si vous pouviez être plus clair sur «souvent», «la plupart» et «rarement», et étayer cela avec des preuves.
whuber

@whuber Bon point - ma réponse était peut-être un peu simpliste. Les vrais fréquentistes ont tendance à utiliser des procédures biaisées (par exemple régression pénalisée L1 ou L2), ou peuvent même utiliser des procédures formellement bayésiennes. Cependant, je pense que les estimateurs non biaisés sont le point de départ de l'analyse la plus fréquentiste. Par exemple, le premier chapitre charnu de la théorie de l'estimation ponctuelle de Lehmann & Casella (l'un des textes standard sur l'estimation fréquentiste) est entièrement consacré à l'impartialité.
Stefan Wager

5
Eh bien, OK (+1). Mais je trouve votre dernier argument amusant: après tout, un livre doit commencer quelque part et généralement ce point de départ est choisi pour sa simplicité et son accessibilité, pas pour son importance pratique. Par le même raisonnement, vous pourriez affirmer que la plupart des mathématiques modernes sont principalement concernées par la logique et la théorie des ensembles, car elles constituent souvent le premier chapitre de nombreux manuels de mathématiques! Un meilleur reflet de la pratique statistique pourrait être la dernière moitié de Lehmann & Casella - jetez un œil à ce qui y est discuté :-).
whuber

"sauf si vous utilisez un appartement dégénéré avant". Eh bien, c'est un cas spécial intéressant à penser, n'est-ce pas?
user56834

De plus, sa question est de savoir si elles coïncideraient théoriquement dans certaines conditions, et non si les estimateurs utilisés dans la pratique coïncident.
user56834

3

Ce n'est pas une réponse complète, mais alors que ces deux regard de » très similaires, ils sont fondamentalement différents de manière: les bayésienne on minimise l'expression par rapport à une valeur unique (qui est, la valeur de x ( y ) , selon y ).argminx^(y)y

Mais le Frequentist doit minimiser la fonction de perte par rapport à une valeur unique pour chaque valeur que pourrait prendre, sans connaître x . En effet , le minimum de la fonction f ( x , x ) = E ( L ( x - x ( Y ) ) | x ) dépend de x , même si nous devons réduire au minimum sans le savoir x . (notez que si nous simplement minimiser f ( x , x )xxf(x,x^)=E(L(xx^(Y))|x)xxf(x,x^) WRTx^x^=x


1
Bons points. Je pense que vous avez raison sur le problème fréquentiste. La façon de le rendre bien posé est de restreindre la classe des estimateurs. De Lehmann & Casella: "Jusqu'à présent, nous avons cherché à trouver des estimateurs qui minimisent le risque R (θ, δ) à chaque valeur de θ. Cela n'a été possible qu'en restreignant la classe d'estimateurs à considérer par une exigence d'impartialité telle que comme impartialité ou équivariance. "
Patrick

1

Il n'y a peut-être pas de réponse à cette question.

Une alternative pourrait être de demander des méthodes pour déterminer efficacement les deux estimations pour tout problème en cours. Les méthodes bayésiennes sont assez proches de cet idéal. Cependant, même si les méthodes minimax peuvent être utilisées pour déterminer l'estimation ponctuelle fréquentiste, en général, l'application de la méthode minimax reste difficile et n'a pas tendance à être utilisée dans la pratique.

Une autre alternative serait de reformuler la question des conditions dans lesquelles les estimateurs bayésiens et fréquentistes fournissent des résultats «cohérents» et d'essayer d'identifier des méthodes pour calculer efficacement ces estimateurs. Ici, «cohérent» signifie que les estimateurs bayésiens et fréquentistes sont dérivés d'une théorie commune et que le même critère d'optimalité est utilisé pour les deux estimateurs. Ceci est très différent d'essayer de s'opposer aux statistiques bayésiennes et fréquentistes, et peut rendre la question ci-dessus superflue. Une approche possible consiste à viser, à la fois pour le cas fréquentiste et le cas bayésien, des ensembles de décisions qui minimisent la perte pour une taille donnée, c'est-à-dire comme proposé par

Schafer, Chad M et Philip B Stark. "Construire des régions de confiance de taille optimale attendue." Journal de l'American Statistical Association 104.487 (2009): 1080-1089.

Il s'avère que cela est possible - à la fois pour le cas fréquentiste et le cas bayésien - en incluant par préférence des observations et des paramètres avec de grandes informations mutuelles ponctuelles. Les ensembles de décisions ne seront pas identiques, car la question posée est différente:

  • Indépendamment de ce qui est le véritable paramètre, limiter le risque de prendre de mauvaises décisions (le point de vue fréquentiste)
  • Compte tenu de certaines observations, limiter le risque d'inclure des paramètres incorrects dans l'ensemble de décisions (vue bayésienne)

Cependant, les ensembles se chevauchent largement et deviennent identiques dans certaines situations, si des prieurs plats sont utilisés. L'idée est discutée plus en détail avec une mise en œuvre efficace dans

Bartels, Christian (2015): Confiance générique et cohérente et régions crédibles. figshare. https://doi.org/10.6084/m9.figshare.1528163

Pour les prieurs informatifs, les ensembles de décisions s'écartent davantage (comme cela est communément connu et a été souligné dans la question et les réponses ci-dessus). Cependant dans le cadre cohérent, on obtient des tests fréquentistes, qui garantissent la couverture fréquentiste souhaitée, mais tiennent compte des connaissances préalables.

Bartels, Christian (2017): Utilisation des connaissances antérieures dans les tests fréquentistes. figshare. https://doi.org/10.6084/m9.figshare.4819597

Les méthodes proposées manquent encore d'une mise en œuvre efficace de la marginalisation.


Could you elaborate in your question more specifically when they would be "consistent"?
user56834

@Programmer2134. Thanks, tried to clarify in the answer.
user36160
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.