@whuber vous a indiqué trois bonnes réponses, mais je peux peut-être encore écrire quelque chose de valeur. Si je comprends bien, votre question explicite est la suivante:
Compte tenu de mon modèle y^je= m^Xje+ b^ (I préavis ajouté 'chapeaux') , et en supposant que mes résidus sont normalement distribués, , puis - je prédire qu'un encore réponse non observée, y n e w , avec une valeur de prédicteur connue, x n e w , va tomber dans l'intervalle ( y - σ e , y + σN( 0 , σ^2e)yn e wXn e w , avec une probabilité de 68%?( y^- σe, y^+ σe)
Intuitivement, la réponse semble être «oui», mais la vraie réponse est peut - être . Ce sera le cas lorsque les paramètres (ie, & σ ) sont connus et sans erreur. Puisque vous avez estimé ces paramètres, nous devons tenir compte de leur incertitude. m , b ,σ
Réfléchissons d'abord à l'écart type de vos résidus. Parce que cela est estimé à partir de vos données, il peut y avoir une erreur dans l'estimation. Par conséquent, la distribution que vous devez utiliser pour former votre intervalle de prédiction doit être une erreur , pas la normale. Cependant, comme le t converge rapidement vers la normale, cela est moins susceptible de poser problème en pratique. terreur dft
Alors, peut - on utiliser juste y nouvelle ± t ( 1 - α / 2 , df erreur ) s , au lieu de y nouveau ± z ( 1 - α / 2 ) s , et aller sur notre bonhomme de chemin? Malheureusement non. Le plus gros problème est qu'il ya une incertitude au sujet de votre estimation de la moyenne conditionnelle de la réponse à cet endroit en raison de l'incertitude dans vos estimations m & b . Ainsi,y^Nouveau± t( 1 - α / 2 , erreur df ) sy^Nouveau± z( 1 - α / 2 )sm^b^l'écart - type de vos prédictions doit intégrer plus que sErreur . Étant donné que les écarts ajoutent , la variance estimée des prévisions sera:
Notez que le « x » est indicé pour représenter la valeur spécifique pour la observation, et que le " s 2 " est corrigé en conséquence. Autrement dit, votre intervalle de prédiction dépend de l'emplacement de la nouvelle observation le long du x
s2prédictions (nouveau)= s2Erreur+ Var ( m^XNouveau+ b^)
Xs2Xaxe. L'écart type de vos prévisions peut être estimé plus facilement avec la formule suivante:
Comme note
complémentaire intéressante, nous pouvons déduire quelques faits sur les intervalles de prédiction à partir de cette équation. Tout d' abord,intervalles de prévision seront plus étroitedonnéesnous avions lorsque nous avons construit le modèle de prévision (car il y a moinsincertitude dans
m&
b). Deuxièmement, les prévisions seront plus précises si elles sont faites à la moyenne desvaleurs
x quevous avez utilisées pour développer votre modèle, car le numérateur pour le troisième terme sera
0. La raison en est que dans des circonstances normales, il n'y a aucune incertitude sur la pente estimée à la moyenne de
xsprédictions (nouveau)= s2Erreur( 1 + 1N+ ( xNouveau- x¯)2∑ ( xje- x¯)2)------------------------√
m^b^X0X, seulement une certaine incertitude sur la véritable position verticale de la droite de régression. Ainsi, certaines leçons à tirer pour construire des modèles de prédiction sont: que plus de données sont utiles, non pas pour trouver la «signification», mais pour améliorer la précision des prédictions futures; et que vous devez centrer vos efforts de collecte de données sur l'intervalle où vous devrez faire des prédictions à l'avenir (pour minimiser ce numérateur), mais diffuser les observations aussi largement que possible à partir de ce centre (pour maximiser ce dénominateur).
Après avoir calculé la valeur correcte de cette manière, nous pouvons ensuite l'utiliser avec la distribution appropriée comme indiqué ci-dessus. t