Ici, je suppose que vous avez l'intention de comparer un test basé sur la valeur p minimale avec un test F global.
En choisissant la plus petite valeur p et en la comparant à un niveau de signification particulier , votre valeur p n'a plus la même signification qu'elle le ferait pour un seul test. En effet, vous testez toutes les variables individuelles (et si elles entraînent un rejet, vous concluez qu'au moins l'un des prédicteurs a un effet sur la réponse). Le taux d'erreur global de type I est beaucoup plus élevé qu'un seul test. (Le problème des tests multiples .)α
Si vous réduisez votre niveau de signification sur les tests individuels, de sorte que vous faites moins d'erreurs de type I (pour le rendre plus comparable au test global au niveau de signification ), vous êtes moins susceptible de trouver un effet significatif (vous abandonnez le pouvoir en réduisant le taux d'erreur de type I).α
Même si vous ne tenez pas compte des tests multiples en déplaçant le niveau de signification, les statistiques univariées peuvent facilement être toutes insignifiantes lorsqu'il existe une relation conjointe claire impliquant les deux.
Voici un exemple. Tout d'abord, quelques données:
y:
4.941, 4.459, 4.116, 3.759, 5.171, 5.101, 5.454, 5.277, 5.402,
4.68, 3.433, 5.508, 4.122, 3.355, 3.622, 4.45, 4.872, 4.202,
5.276, 4.415, 5.311, 4.105, 3.282, 4.152, 5.416, 4.615, 3.804,
5.299, 4.603, 4.868
x1:
42.305, 16.828, 46.515, 32.567, 40.827, 45.755, 34.227, 43.799,
54.659, 34.991, 15.134, 29.115, 20.617, 1.252, 25.844, 19.563,
21.53, 22.989, 38.993, 44.955, 30.799, 32.639, 8.707, 46.945,
38.992, 25.717, 40.875, 26.049, 36.121, 39.868
x2:
24.279, 8.844, 27.888, 19.099, 23.732, 28.648, 19.26, 26.578,
32.764, 21.302, 8.583, 17.026, 12.047, 0.085, 16.636, 10.021,
12.487, 13.745, 23.557, 26.67, 19.881, 20.23, 4.377, 27.865,
23.359, 15.006, 25.909, 14.772, 21.5, 23.002
Sortie de régression (de R :)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.47760 0.32703 10.634 3.74e-11
x1 0.14999 0.09194 1.631 0.114
x2 -0.19524 0.14741 -1.324 0.196
---
Residual standard error: 0.5884 on 27 degrees of freedom
Multiple R-squared: 0.3167, Adjusted R-squared: 0.2661
F-statistic: 6.257 on 2 and 27 DF, p-value: 0.005851
La plus petite valeur de p est de 0,114 - vous n'auriez pas rejeté l'hypothèse nulle d'absence d'association même au niveau de signification de 10%, mais la régression globale conduirait au rejet même si votre niveau de signification était de 1%. C'est sans même traiter le problème des tests multiples.
Il n'est pas non plus utile d'exécuter des régressions distinctes et de vérifier les valeurs de p là-bas, car (dans un type d'exemple différent de celui ci-dessus), il est tout à fait possible qu'il n'y ait pas de relation dans les régressions univariées alors qu'il existe une relation forte dans la régression bivariée .