L'estimateur de Bayes est immunisé contre le biais de sélection


11

Les estimateurs bayésiens sont-ils à l'abri du biais de sélection?

La plupart des articles qui traitent de l'estimation en haute dimension, par exemple, les données de séquence du génome entier, soulèvent souvent la question du biais de sélection. Le biais de sélection provient du fait que, bien que nous ayons des milliers de prédicteurs potentiels, seuls quelques-uns seront sélectionnés et une inférence sera faite sur quelques-uns sélectionnés. Le processus se déroule donc en deux étapes: (1) sélectionner un sous-ensemble de prédicteurs (2) effectuer une inférence sur les ensembles sélectionnés, par exemple, estimer les rapports de cotes. Dans son article paradoxal de 1994, Dawid s'est concentré sur les estimateurs sans biais et les estimateurs de Bayes. Il simplifie le problème en sélectionnant le plus grand effet, qui pourrait être un effet de traitement. Il ajoute ensuite que les estimateurs non biaisés sont affectés par le biais de sélection. Il a utilisé l'exemple: supposons puis chacunZ i

ZjeN(δje,1),je=1,,N
Zje est sans biais pour δje . Soit Z=(Z1,Z2,,ZN)T , l'estimateur
γ1(Z)=max{Z1,Z2,,ZN}
est cependant biaisé ( positivement) pour max{δ1,δ2,,δN} . Cette affirmation peut être facilement prouvée par l'inégalité de Jensen. Par conséquent, si nous connaissions jemax , l'indice du plus grand δje , nous utiliserons simplement Zjemax comme estimateur qui est sans biais. Mais parce que nous ne le savons pas, nous utilisons à la place γ1(Z) qui devient biaisé (positivement).

entrez la description de l'image ici

Mais la déclaration inquiétante de Dawid, Efron et d'autres auteurs est que les estimateurs de Bayes sont immunisés contre les biais de sélection. Si je vais maintenant mettre en avant , disons , Alors l'estimateur de Bayes de est donné par où , avec le gaussien standard.δ ig ( . ) δ i E { δ iZ i } = z i + dδjeδjeg(.)δjem(zi)=φ(zi-δi)g(δi)dδiφ(.)

E{δjeZje}=zje+zjem(zje)
m(zje)=φ(zje-δje)g(δje)δjeφ(.)

Si nous définissons le nouvel estimateur de comme tout ce que sélectionne pour estimer avec , sera le même si la sélection était basée sur . Ceci suit parce que est monotone dans . Nous savons aussi que shrinkes vers zéro avec le terme, γ 2 ( Z ) = max { E { δ 1Z 1 } , E { δ 2Z 2 } , , E { δ NZ N } } , i δ i max γ 1 ( Z ) i γ 2 ( Z ) γ 2 ( Z )δjemax

γ2(Z)=max{E{δ1Z1},E{δ2Z2},,E{δNZN}},
jeδjemaxγ1(Z)jeγ2(Z)γ2(Z)ZjeE{δjeZje}Zjezjem(zje)ce qui réduit une partie du biais positif dans . Mais comment conclure que les estimateurs de Bayes sont immunisés contre le biais de sélection. Je ne comprends vraiment pas.Zje

1
Étant donné que vous référez une revendication dans un document, pouvez-vous s'il vous plaît donner une situation complète et une référence de page, afin que nous puissions lire le contexte complet de cette revendication.
Ben - Réintègre Monica

La définition d'un estimateur comme étant le maximum d'estimateurs Bayes est-elle toujours un estimateur Bayes?
Xi'an

Exemple 1 dans l'article.
Chamberlain Foncha

Réponses:


4

Comme décrit ci-dessus, le problème tient au fait de tirer une inférence sur l'indice et la valeur, (i⁰, μ⁰), de la plus grande moyenne d'un échantillon de RV normaux. Ce que je trouve surprenant dans la présentation de Dawid, c'est que l'analyse bayésienne ne sonne pas tellement bayésienne. Si on donne l'échantillon entier, une approche bayésienne devrait produire une distribution postérieure sur (i⁰, μ⁰), plutôt que de suivre des étapes d'estimation, de l'estimation de i⁰ à l'estimation de la moyenne associée. Et si nécessaire, les estimateurs devraient provenir de la définition d'une fonction de perte particulière. Lorsque, au lieu de cela, étant donné le point le plus grand de l'échantillon, et seulement ce point, sa distribution change, je suis donc assez perplexe par l'affirmation qu'aucun ajustement n'est nécessaire.

La modélisation antérieure est également assez surprenante dans la mesure où les a priori sur les moyennes devraient être conjoints plutôt que le produit de normales indépendantes, puisque ces moyennes sont comparées et donc comparables. Par exemple, un a priori hiérarchique semble plus approprié, l'emplacement et l'échelle devant être estimés à partir de l'ensemble des données. Créer un lien entre les moyens ... Une objection pertinente à l'utilisation de prieurs impropres indépendants est que la moyenne maximale μ⁰ n'a alors pas de mesure bien définie. Cependant, je ne pense pas qu'une critique de certains prieurs contre d'autres soit une attaque pertinente contre ce "paradoxe".


1
Il me semble que toute la protection nécessaire doit être codée dans le préalable qui relie tous les moyens inconnus. Si le prieur fait de grandes différences entre les moyens très peu probables, cela se reflétera dans le postérieur le rendant parfait.
Frank Harrell

@ Xi'an pouvez-vous donner un exemple de la façon dont vous placerez un prior sur ? (je,μ)
Chamberlain Foncha

@Frank Harrel, considérons par exemple et . L'estimateur sans biais de est . L'estimateur bayésien de est . Si est le plus grand il en est de même pour , car l'estimateur de Bayes est monotone dans . Peu importe à quel point le prieur est informatif, cela ne changera pas. Cependant, réduit les Bayes positifs dans . Mais si le mauvais été choisi, l'estimateur de Bayes ne peut pas corriger cela.Z iN ( δ i , 1 ) δ i Z i δ i E ( δ i | Z i ) Z i 0 Z i E ( δ i 0 | Z i 0 )δiN(a,1)ZiN(δi,1)δiZiδiE(δi|Zi)Zi0ZiE(δi0|Zi0) E ( δ i 0 | Z i 0 ) Z i 0 i 0ZiE(δi0|Zi0)Zi0i0
Chamberlain Foncha

@ChamberlainFoncha: L'estimateur de Bayes n'est lorsque les sont a priori indépendants. Un a priori conjoint sur et les les rend réellement dépendants. δ i i μ iE[δje|Zje]δjejeμje
Xi'an

Et tout a priori est acceptable d'un point de vue bayésien, par exemple une distribution uniforme sur l'index et un a priori hiérarchique sur les . μje
Xi'an

1

Même si c'est un peu contre-intuitif, l'énoncé est correct. Supposons que pour cette expérience, alors la partie postérieure de est vraiment . Ce fait contre-intuitif est un peu similaire au fait que Bayes est immunisé contre un arrêt précoce (secret) (qui est également très contre-intuitif).μ 5 N ( x 5 , σ 2 )je=5μ5N(X5,σ2)

Le raisonnement bayésien conduirait à de fausses conclusions si pour chacune de ces expériences (imaginez que vous le répétiez plusieurs fois), seuls les résultats pour la meilleure variété seraient conservés. Il y aurait sélection des données et les méthodes bayésiennes ne sont clairement pas à l'abri de la sélection (secrète) des données. En fait, aucune méthode statistique n'est à l'abri de la sélection des données.

Si une telle sélection était effectuée, un raisonnement bayésien complet tenant compte de cette sélection corrigerait facilement l'illusion.

Cependant, la phrase "L'estimateur bayesien est immunisé contre le biais de sélection" est un peu dangereux. Il est facile d'imaginer des situations où "sélection" signifie autre chose, comme par exemple la sélection de variables explicatives ou la sélection de données. Bayes n'est pas clairement immunisé contre cela.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.