Supposons que votre ensemble de données se compose d'un ensemble pour et que vous souhaitez examiner la dépendance de sur .i = 1 , … , n y x( xje, yje)i = 1 , … , nyX
Supposons que vous trouviez les valeurs et de et qui minimisent la somme résiduelle des carrés
Ensuite, vous prenez comme étant la valeur prévue pour toute valeur (pas nécessairement déjà observée) . C'est une régression linéaire. β αβ n Σ i=1(yi-(α+βxi))2. Y = α + β xyxα^β^αβ
∑i = 1n( yje- ( α + βXje) )2.
y^= α^+ β^XyX
Envisagez maintenant de décomposer la somme totale des carrés
avec degrés de liberté, en parties "expliquées" et "inexpliquées":
avec et degrés de liberté, respectivement. C'est l'analyse de la variance, et on considère ensuite des choses comme les statistiques
Cette n-1 n Σ i = 1 ( ( α + β x i ) - ˉ y ) 2 ⏟ expliqué+ n Σ i = 1 ( y i - ( α + β x i ) ) 2 ⏟ inexpliquée. 1n-2F=∑ n i =
∑i = 1n( yje- y¯)2où y¯= y1+ ⋯ + ynn
n - 1∑i = 1n( ( α^+ β^Xje) - y¯)2expliqué + ∑ i = 1n( yje- ( α^+ β^Xje) )2inexpliqué.
1n - 2β=0F= ∑ni = 1( ( α^+ β^Xje) - y¯)2/ 1∑ni = 1( yje- ( α^+ β^Xje) )2/ (n-2).
La statistique F teste l'hypothèse nulle .
β= 0
On rencontre souvent d'abord le terme «analyse de variance» lorsque le prédicteur est catégorique, de sorte que vous ajustez le modèle
où identifie quelle catégorie est la valeur du prédicteur. S'il y a catégories, vous obtiendrez degrés de liberté au numérateur dans la statistique F, et généralement degrés de liberté au dénominateur. Mais la distinction entre régression et analyse de variance est toujours la même pour ce type de modèle. i k k - 1 n - k
y= α + βje
jekk - 1n - k
Quelques points supplémentaires:
- Pour certains mathématiciens, le compte rendu ci-dessus peut faire apparaître que tout le champ n'est que ce qui est vu ci-dessus, il peut donc sembler mystérieux que la régression et l'analyse de la variance soient des domaines de recherche actifs. Il y a beaucoup de choses qui ne rentrent pas dans une réponse appropriée pour la publication ici.
- Il y a une erreur populaire et tentante, qui est appelée "linéaire" car le graphique de est une ligne. C'est faux. L'une de mes réponses précédentes explique pourquoi on l'appelle toujours "régression linéaire" lorsque vous ajustez un polynôme via les moindres carrés.y= α + βX