Comment interpréter les valeurs P GAM?

Je m'appelle Hugh et je suis un doctorant utilisant des modèles additifs généralisés pour faire une analyse exploratoire.

Je ne sais pas comment interpréter les valeurs p qui proviennent du package MGCV et je voulais vérifier ma compréhension (j'utilise la version 1.7-29 et j'ai consulté une partie de la documentation de Simon Wood). J'ai d'abord cherché d'autres questions de CV, mais les plus pertinentes semblent concerner les régressions générales, pas les valeurs p de GAM en particulier.

Je sais qu'il y a beaucoup d'arguments différents dans GAM, et les valeurs de p ne sont qu'approximatives. Mais je commence simplement à voir s'il y a un quelconque "signal" pour mes covariables. Par exemple:

Y ~ s (a, k = 3) + s (b, k = 3) + s (c, k = 3) + s (d, k = 3) + s (e, k = 3)

Valeurs p approximatives des termes lisses:

s (a) = 0,000473
s (b) = 1,13e-05
s (c) = 0,000736
s (d) = 0,887579
s (e) = 0,234017

R ² (corrigé) = 0,62 déviance expliquée = 63,7% Score GCV = 411,17 is Scale. = 390,1 n = 120 $\quad$
$\quad$ $\quad$

J'ai coupé les colonnes df, etc., en raison du formatage. J'interprète les valeurs de p pour chaque covariable comme un test pour savoir si la fonction lisse correspondante réduit significativement la déviance du modèle, où p est la probabilité d'obtenir des données au moins aussi `` relativement peu plausibles '' que celle observée sous un modèle nul de 0.

Cela signifierait que (par exemple avec alpha = 0,05) les fonctions lissées n'ont pas réduit la déviance pour "d" & "e" par rapport à un modèle nul, alors qu'elles l'ont fait pour les autres termes. Par conséquent, (d) et (e) n'ajoutent pas d'informations significatives à la régression, et la déviance expliquée est due à (a) (b) (c)?

Tout conseil serait grandement apprécié et bonne chance dans vos recherches.

p-value mgcv

— user45178
source

L'article décrivant comment ils fonctionnent est ici .

Ce sont des valeurs de p associées aux tests de Wald que la fonction entière s (.) = 0. De faibles valeurs de p indiquent une faible probabilité que les splines qui composent la fonction soient conjointement nulles.

La chose compliquée à leur sujet est qu'ils impliquent un pseudoinverse de rang réduit. Le test de Wald typique est . Vous pouvez voir immédiatement qu'il s'agit d'un test t dans le cas univarié (c'est-à-dire, non pas des matrices mais bêta et variance). Cela donne une puissance vraiment faible dans le cas de splines pénalisées car ces coefficients sont pénalisés. Le pseudoinverse de rang r explique cela. Le papier est vraiment assez dense, mais une fois que vous obtenez l'essentiel - améliorer la puissance d'un test en tenant compte d'EDF au lieu du classement matriciel - il devient possible de suivre le formalisme. $\hat f (V_\beta)^{-1} \hat f$

— utilisateur_générique
source