J'exécute une régression basée sur GAM en utilisant le gamlss du package R et en supposant une distribution bêta gonflée à zéro des données. Je n'ai qu'une seule variable explicative dans mon modèle, il est donc essentiellement: mymodel = gamlss(response ~ input, family=BEZI)
.
L'algorithme me donne le coefficient pour l'impact de la variable explicative dans la moyenne ( ) et la valeur de p associée pour , quelque chose comme:
Mu link function: logit
Mu Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.58051 0.03766 -68.521 0.000e+00
input -0.09134 0.01683 -5.428 6.118e-08
Comme vous pouvez le voir dans l'exemple ci-dessus, l'hypothèse de est rejetée avec une confiance élevée.
Je lance ensuite le modèle nul: null = gamlss(response ~ 1, family=BEZI)
et compare les probabilités à l'aide d'un test de rapport de vraisemblance:
p=1-pchisq(-2*(logLik(null)[1]-logLik(mymodel)[1]), df(mymodel)-df(null)).
Dans un certain nombre de cas, j'obtiens même lorsque les coefficients en entrée sont très significatifs (comme ci-dessus). Je trouve cela assez inhabituel - au moins, cela ne s'est jamais produit dans mon expérience avec la régression linéaire ou logistique (en fait, cela ne s'est jamais produit lorsque j'utilisais le gamma ajusté à zéro avec gamlss).
Ma question est: puis-je encore faire confiance à la dépendance entre la réponse et l'entrée lorsque c'est le cas?