J'ai lu les nombreuses excellentes discussions sur le site concernant l'interprétation des intervalles de confiance et des intervalles de prédiction, mais un concept est encore un peu déroutant:
Considérons le framework OLS et nous avons obtenu le modèle ajusté . On nous donne un et on nous a demandé de prédire sa réponse. Nous calculons et, en prime, nous fournissons également un intervalle de prédiction de 95% autour de notre prédiction, a la Obtention d'une formule pour les limites de prédiction dans un modèle linéaire . Appelons cet intervalle de prédiction PI. x*x*T β
Maintenant, lequel des énoncés suivants (ou aucun) est la bonne interprétation de PI?
- Pour en particulier, se situe dans PI avec une probabilité de 95%. y ( x ∗ )
- Si on nous donne un grand nombre de s, cette procédure de calcul des PI couvrira les vraies réponses dans 95% des cas.
D'après le libellé de @ gung dans l' intervalle de prédiction de régression linéaire , il semble que le premier soit vrai (bien que je puisse très bien mal interpréter.) L'interprétation 1 me semble contre-intuitive (dans le sens où nous tirons des conclusions bayésiennes à partir d'une analyse fréquentiste), mais si c'est correct, est-ce parce que nous prédisons la réalisation d'une variable aléatoire par rapport à l' estimation d' un paramètre ?
(Modifier) Question bonus: Supposons que nous connaissions la véritable , c'est-à-dire le processus générant les données, alors serions-nous en mesure de parler des probabilités concernant une prédiction particulière, puisque nous ne regardons que ?ϵ
Ma dernière tentative en la matière: nous pouvons «décomposer conceptuellement» (en utilisant le mot de façon très lâche) un intervalle de prédiction en deux parties: (A) un intervalle de confiance autour de la réponse moyenne prédite, et (B) une collection d'intervalles qui ne sont que des quantiles plages du terme d'erreur. (B) nous pouvons faire des déclarations probabilistes, conditionnelles à la connaissance de la vraie moyenne prédite, mais dans l'ensemble, nous ne pouvons traiter les intervalles de prédiction que comme des IC fréquentistes autour des valeurs prédites. Est-ce un peu correct?