Quelles méthodes non bayésiennes existe-t-il pour l'inférence prédictive?

Dans l'inférence bayésienne, une distribution prédictive des données futures est dérivée en intégrant des paramètres inconnus; l'intégration sur la distribution postérieure de ces paramètres donne une distribution prédictive postérieure - une distribution pour les données futures conditionnelle à celles déjà observées. Quelles sont les méthodes non bayésiennes pour l'inférence prédictive qui prennent en compte l'incertitude dans les estimations des paramètres (c'est-à-dire qui ne se contentent pas de brancher les estimations du maximum de vraisemblance ou quoi que ce soit dans une fonction de densité)?

Tout le monde sait comment calculer les intervalles de prédiction après une régression linéaire, mais quels sont les principes derrière le calcul et comment peuvent-ils être appliqués dans d'autres situations (par exemple, calculer un intervalle de prédiction exact pour une nouvelle variable exponentielle après avoir estimé le paramètre de taux à partir des données)?

prediction inference prediction-interval

— Scortchi - Réintégrer Monica
source

Je pense que c'est une excellente question, et je veux fournir au moins une réponse partielle, mais je n'aurai probablement pas le temps de lui rendre justice pendant un certain temps ... donc je vais m'en tenir à cela pour l'instant .

— Glen_b -Reinstate Monica

@ DavidC.Norris Je ne vois pas pourquoi il faudrait insister sur le fait qu'il existe nécessairement d'autres sources d'incertitude sur les paramètres au-delà (d'où l'inférence prédictive devrait tenir compte à la fois de cela et de la variabilité aléatoire dans le processus lui-même). Cela en soi n'est pas trivial même dans des exemples assez basiques - essayez de produire des intervalles de prédiction pour une somme de prédictions à partir d'une régression binomiale de Poisson ou négative, par exemple. Il n'est pas nécessaire non plus d'être bayésien pour supposer qu'il y a des variations de paramètres entre les catégories (comme les personnes qui utilisent des modèles mixtes).

— Glen_b -Reinstate Monica

@ DavidC.Norris: J'ai posé des questions sur les méthodes non bayésiennes simplement parce que le calcul des distributions prédictives postérieures est couvert dans chaque introduction aux statistiques bayésiennes, alors que les méthodes fréquentistes générales pour calculer les intervalles de prédiction ne sont pas largement connues.

— Scortchi - Réintégrer Monica

@EngrStudent, le bootstrap fonctionne en rééchantillonnant les données originales, et tombe donc dans la même catégorie que les autres méthodes fréquentistes qui ne traitent que la variation d'échantillonnage comme source d'incertitude. Il n'élargit pas le concept d'incertitude lui-même.

— David

@ DavidC.Norris: Il est échantillonnage variation comme une source d'incertitude - comme affectant les prévisions des observations futures plutôt que l' inférence sur les paramètres - que je suis préoccupé par ici, plutôt que des méthodes non-bayésienne pour prendre en compte d' autres types d'incertitude.

— Scortchi - Réintégrer Monica

Réponses:

L'inférence prédictive non bayésienne (à l'exception du cas SLR) est un domaine relativement récent. Sous la rubrique «non-bayésien», nous pouvons subdiviser les approches en celles qui sont «fréquentistes» classiques par rapport à celles qui sont basées sur la «vraisemblance».

Prédiction fréquenciste classique

$\alpha$ $\beta$

Maintenant, j'ai généralement eu des problèmes avec la façon dont les IP classiques sont présentés et enseignés dans la plupart des cours de statistiques, car la tendance écrasante est de les interpréter comme des intervalles prédictifs postérieurs bayésiens, ce qu'ils ne sont décidément pas. Plus fondamentalement, ils parlent de différentes probabilités! Les Bayésiens ne font aucune réclamation sur les performances d'échantillonnage répétées de leurs quantités (sinon, ils seraient fréquentistes). Deuxièmement, un IP bayésien accomplit quelque chose de plus similaire dans son esprit à un intervalle de tolérance classique qu'à un intervalle de prédiction classique.

Pour référence: les intervalles de tolérance doivent être spécifiés par deux probabilités: la confiance et la couverture. La confiance nous indique à quelle fréquence elle est correcte dans des échantillons répétés. La couverture nous indique la mesure de probabilité minimale de l'intervalle sous la distribution vraie (par opposition à l'IP, qui donne la mesure de probabilité attendue ... encore sous échantillonnage répété). C'est essentiellement ce que l'IP bayésien essaie également de faire, mais sans prétentions d'échantillonnage répété.

Ainsi, la logique de base de la régression linéaire simple Stats 101 est de dériver les propriétés d'échantillonnage répété de l'IP sous l'hypothèse de normalité. C'est l'approche fréquentiste + gaussienne qui est généralement considérée comme "classique" et enseignée dans les classes de statistiques d'introduction. Ceci est basé sur la simplicité des calculs qui en résultent (voir Wikipedia pour une belle vue d'ensemble).

Les distributions de probabilité non gaussiennes sont généralement problématiques car elles peuvent manquer de quantités pivots qui peuvent être soigneusement inversées pour obtenir un intervalle. Par conséquent, il n'y a pas de méthode "exacte" pour ces distributions, souvent parce que les propriétés de l'intervalle dépendent des vrais paramètres sous-jacents.

Reconnaissant cette incapacité, une autre classe de prédiction est apparue (et d'inférence et d'estimation) avec l'approche de vraisemblance.

Inférence basée sur la vraisemblance

Les approches basées sur les vraisemblances, comme de nombreux concepts statistiques modernes, peuvent être retracées jusqu'à Ronald Fisher. L'idée de base de cette école est que, sauf dans des cas particuliers, nos inférences statistiques sont logiquement plus faibles que lorsque nous traitons des inférences à partir d'une distribution normale (dont les estimations des paramètres sont orthogonales ), où nous pouvons faire des énoncés de probabilité exacts. Dans cette conception de l'inférence, il faut vraiment éviter les déclarations sur la probabilité, sauf dans le cas exact, sinon, il faut faire des déclarations sur la probabilité et reconnaître que l'on ne connaît pas la probabilité exacte d'erreur (au sens fréquentiste).

Par conséquent, nous pouvons voir la probabilité comme apparentée à la probabilité bayésienne, mais sans les exigences d'intégrabilité ou la confusion possible avec la probabilité fréquentiste. Son interprétation est entièrement subjective ... bien qu'un rapport de vraisemblance de 0,15 soit souvent recommandé pour l'inférence à paramètre unique.

Cependant, on ne voit pas souvent des articles qui donnent explicitement des «intervalles de vraisemblance». Pourquoi? Il semble que cela soit en grande partie une question de sociologie, car nous nous sommes tous habitués aux déclarations de confiance basées sur les probabilités. Au lieu de cela, ce que vous voyez souvent, c'est un auteur se référant à un intervalle de confiance "approximatif" ou "asymptotique" de tel ou tel. Ces intervalles sont largement dérivés des méthodes de vraisemblance, où nous nous appuyons sur la distribution asymétrique du chi carré du rapport de vraisemblance de la même manière que nous nous appuyons sur la normalité asymptotique de la moyenne de l'échantillon.

Avec cette «correction», nous pouvons maintenant construire des régions de confiance «approximatives» à 95% avec presque autant de cohérence logique que les Bayésiens.

De CI à PI dans le cadre de vraisemblance

Le succès et la facilité de l'approche de probabilité ci-dessus ont conduit à des idées sur la façon de l'étendre à la prédiction. Un très bon article d'enquête à ce sujet est donné ici (je ne reproduirai pas son excellente couverture). Cela remonte à David Hinkley à la fin des années 1970 (voir JSTOR ), qui a inventé le terme. Il l'a appliqué au pérenne « Problème de prédiction binomiale de Pearson ». Je vais résumer la logique de base.

$y$ $y$ $y$

Les règles de base pour se débarrasser des paramètres de "nuisance" pour obtenir une probabilité prédictive sont les suivantes:

$\mu, \sigma$
Si un paramètre est aléatoire (par exemple, d' autres données non observées ou « effets aléatoires »), vous intégrez - les (comme dans l' approche bayésienne).

La distinction entre un paramètre fixe et aléatoire est unique à l'inférence de vraisemblance, mais a des liens avec des modèles à effets mixtes, où il semble que les cadres bayésien, fréquentiste et de vraisemblance entrent en collision.

J'espère que cela a répondu à votre question sur le vaste domaine de la prédiction "non bayésienne" (et l'inférence d'ailleurs). Étant donné que les hyperliens peuvent changer, je ferai également une fiche pour le livre "In All Lik vraisemblance: modélisation statistique et inférence utilisant la vraisemblance" qui traite en profondeur du cadre moderne de vraisemblance, y compris une bonne partie des problèmes épistémologiques de vraisemblance vs bayésienne vs fréquentiste inférence et prédiction.

Les références

Intervalles de prédiction: méthodes non paramétriques . Wikipédia. Consulté le 13/09/2015.
Bjornstad, Jan F. Probabilité prédictive: un examen. Statist. Sci. 5 (1990), no. 2, 242--254. doi: 10.1214 / ss / 1177012175. http://projecteuclid.org/euclid.ss/1177012175 .
David Hinkley. Probabilité prédictive . Les Annales de la statistique Vol. 7, n ° 4 (juil., 1979), pp. 718-728 Publié par: Institute of Mathematical Statistics URL stable: http://www.jstor.org/stable/2958920
Yudi Pawitan. Selon toute vraisemblance: modélisation statistique et inférence utilisant la vraisemblance. Oxford University Press; 1 édition (30 août 2001). ISBN-10: 0198507658, ISBN-13: 978-0198507659. Surtout les chapitres 5.5-5.9, 10 et 16.

J'aborderai ma réponse spécifiquement à la question: "Quelles sont les méthodes non bayésiennes d'inférence prédictive qui prennent en compte l'incertitude dans les estimations des paramètres?" J'organiserai ma réponse en élargissant le sens de l' incertitude .

Nous espérons que les analyses statistiques appuient divers types de demandes, y compris les prévisions . Mais nous restons incertains de nos revendications, et cette incertitude provient de nombreuses sources. Les statistiques Frequentist sont organisées de manière caractéristique pour ne traiter que la partie de notre incertitude résultant spécifiquement de l' échantillonnage . L'échantillonnage pourrait bien avoir été la principale source d'incertitude dans les expériences agricoles sur le terrain qui ont historiquement fourni une grande partie de l'impulsion au développement de statistiques fréquentistes. Mais dans la plupart des applications actuelles les plus importantes, ce n'est pas le cas. Nous nous inquiétons maintenant de toutes sortes d'autres incertitudes comme les erreurs de spécification des modèles et diverses formes de biais --- dont il existe apparemment des centaines (!) De types [1].

Sander Greenland a un merveilleux document de travail [2] qui souligne combien il peut être important de prendre en compte ces autres sources d'incertitude, et prescrit une analyse des biais multiples comme moyen d'y parvenir. Il développe la théorie entièrement en termes bayésiens, ce qui est naturel. Si l'on souhaite poursuivre un traitement formel et cohérent de son incertitude sur les paramètres du modèle, on est naturellement amené à poser des distributions de probabilités (subjectives) sur les paramètres; à ce stade, vous êtes soit perdu face au diable bayésien, soit vous êtes entré dans le royaume des cieux bayésien (selon votre religion).

À votre question, @Scortchi, pour savoir si cela peut être fait avec des «méthodes non bayésiennes», une solution de contournement non bayésienne est illustrée dans [3]. Mais pour quiconque en sait assez sur le bayésianisme pour écrire votre question, le traitement qui y sera ressemblera plutôt à une tentative de mise en œuvre des calculs bayésiens «en catimini» pour ainsi dire. En effet, comme le reconnaissent les auteurs (voir p. 4), plus vous vous rapprochez des méthodes les plus avancées vers la fin du livre, plus les méthodes ressemblent précisément à l'intégration que vous décrivez dans votre question. Ils suggèrent que là où ils s'écartent du bayésianisme, ce n'est finalement qu'en ne posant pas de prieurs explicites sur leurs paramètres avant de les estimer.

$\theta(\alpha)$ $\alpha$ $\theta$

Chavalarias, David et John PA Ioannidis. «L'analyse de cartographie scientifique caractérise 235 biais dans la recherche biomédicale.» Journal of Clinical Epidemiology 63, no. 11 (novembre 2010): 1205–15. doi: 10.1016 / j.jclinepi.2009.12.011.
Groenland, Sander. «Modélisation à biais multiples pour l'analyse des données d'observation (avec discussion)». Journal de la Royal Statistical Society: série A (Statistics in Society) 168, no. 2 (mars 2005): 267–306. doi: 10.1111 / j.1467-985X.2004.00349.x.
Lash, Timothy L., Matthew P. Fox et Aliza K. Fink. Application d'une analyse quantitative des biais aux données épidémiologiques. Statistiques pour la biologie et la santé. New York, NY: Springer New York, 2009. http://link.springer.com/10.1007/978-0-387-87959-8 .

— David C. Norris
source

Merci! Cela semble très intéressant, mais je pense qu'il serait utile que vous puissiez ajouter un bref aperçu de la façon dont l'analyse des biais multiples / quantitatifs est utilisée dans l'inférence prédictive.

— Scortchi - Réintégrer Monica

J'ai ajouté un paragraphe pour rendre la connexion à la prédiction explicite. Merci pour votre demande de clarification, @Scortchi.

— David C. Norris