Voici un exemple simple. Je ne sais pas si vous connaissez R, mais j'espère que le code est suffisamment explicite.
set.seed(9) # this makes the example reproducible
N = 36
# the following generates 3 variables:
x1 = rep(seq(from=11, to=13), each=12)
x2 = rep(rep(seq(from=90, to=150, by=20), each=3 ), times=3)
x3 = rep(seq(from=6, to=18, by=6 ), times=12)
cbind(x1, x2, x3)[1:7,] # 1st 7 cases, just to see the pattern
x1 x2 x3
[1,] 11 90 6
[2,] 11 90 12
[3,] 11 90 18
[4,] 11 110 6
[5,] 11 110 12
[6,] 11 110 18
[7,] 11 130 6
# the following is the true data generating process, note that y is a function of
# x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
# & that x2 tends to have less influence on the response variable than x1:
y = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)
reg.Model = lm(y~x1+x2+x3) # fits a regression model to these data
Maintenant, voyons à quoi cela ressemble:
. . .
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.76232 27.18170 -0.065 0.94871
x1 3.11683 2.09795 1.486 0.14716
x2 0.21214 0.07661 2.769 0.00927 **
x3 0.17748 0.34966 0.508 0.61524
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
. . .
F-statistic: 3.378 on 3 and 32 DF, p-value: 0.03016
Nous pouvons nous concentrer sur la section "Coefficients" de la sortie. Chaque paramètre estimé par le modèle obtient sa propre ligne. L'estimation réelle elle-même est répertoriée dans la première colonne. La deuxième colonne répertorie les erreurs types des estimations, c'est-à-dire une estimation de la quantité d'estimations qui «rebondiraient» d'un échantillon à l'autre, si nous répétions ce processus encore et encore et encore. Plus précisément, il s'agit d'une estimation de l'écart-type de la distribution d'échantillonnage de l'estimation. Si nous divisons chaque estimation de paramètre par son SE, nous obtenons un score t , qui est répertorié dans la troisième colonne; ceci est utilisé pour le test d'hypothèse, spécifiquement pour tester si l'estimation du paramètre est «significativement» différente de 0. La dernière colonne est lap-value associée à ce t-score. C'est la probabilité de trouver une valeur estimée aussi éloignée ou éloignée de 0, si l'hypothèse nulle était vraie. Notez que si l'hypothèse nulle n'est pas vraie, il n'est pas clair que cette valeur nous dit quoi que ce soit de significatif du tout.
Si nous regardons en arrière entre le tableau des coefficients et le véritable processus de génération de données ci-dessus, nous pouvons voir quelques choses intéressantes. L'ordonnée à l'origine est estimée à -1,8 et son SE est à 27, alors que la vraie valeur est à 15. Étant donné que la valeur p associée est de 0,95, elle ne serait pas considérée comme «significativement différente» de 0 (une erreur de type II ), mais elle se situe néanmoins à l' intérieur d' un SE de la valeur réelle. Il n'y a donc rien de terriblement extrême dans cette estimation du point de vue de la valeur réelle et du montant qu'elle devrait fluctuer; nous avons simplement un pouvoir insuffisant pour le différencier de 0. La même histoire vaut, plus ou moins, pourx1
x2
.21214 ≈ .2x3
x1
prédit la variable de réponse mieux que le hasard seul. Une autre façon de le dire est de savoir si toutes les estimations ne doivent pas être considérées comme non différenciables de 0. Les résultats de ce test suggèrent qu'au moins certaines des estimations de paramètres ne sont pas égales à 0, une autre décision correcte. Puisqu'il y a 4 tests ci-dessus, nous n'aurions aucune protection contre le problème des comparaisons multiples sans cela. (Gardez à l'esprit que parce que les valeurs de p sont des variables aléatoires - si quelque chose est significatif varierait d'une expérience à l'autre, si l'expérience était réexécutée - il est possible qu'elles ne soient pas cohérentes les unes avec les autres. CV ici: Signification des coefficients en régression multiple: test t significatif vs statistique F non significative, et la situation inverse ici: comment une régression peut-elle être significative mais tous les prédicteurs peuvent-ils être non significatifs , et ici: les statistiques F et t dans une régression .) Peut-être curieusement, il n'y a pas d' erreurs de type I dans cet exemple. Quoi qu'il en soit, les 5 tests examinés dans ce paragraphe sont tous des tests d'hypothèse.
D'après votre commentaire, je suppose que vous pouvez également vous demander comment déterminer si une variable explicative est plus importante qu'une autre. C'est une question très courante, mais assez délicate. Imaginez vouloir prédire le potentiel de réussite dans un sport en fonction de la taille et du poids d'un athlète et se demander ce qui est le plus important. Une stratégie courante consiste à chercher quel coefficient estimé est le plus élevé. Cependant, ces estimations sont spécifiques aux unités qui ont été utilisées: par exemple, le coefficient de poids changera selon que des livres ou des kilogrammes sont utilisés. De plus, il n'est pas très clair comment assimiler / comparer les livres et les pouces, ou les kilogrammes et les centimètres. Une stratégie que les gens utilisent consiste à normaliserR2r = r2--√