Je voudrais poser cette question en deux parties. Les deux traitent d'un modèle linéaire généralisé, mais le premier traite de la sélection du modèle et les autres de la régularisation.
Contexte: J'utilise des modèles GLM (linéaire, logistique, régression gamma) à la fois pour la prédiction et pour la description. Quand je fais référence aux « choses normales que l'on fait avec une régression », je veux dire en grande partie la description avec (i) des intervalles de confiance autour des coefficients, (ii) des intervalles de confiance autour des prédictions et (iii) des tests d'hypothèse concernant les combinaisons linéaires des coefficients tels que «est existe-t-il une différence entre le traitement A et le traitement B? ".
Perdez-vous légitimement la capacité de faire ces choses en utilisant la théorie normale sous chacun des éléments suivants? Et si oui, ces choses ne sont-elles vraiment bonnes que pour les modèles utilisés pour la prédiction pure?
I. Lorsqu'un GLM a été ajusté via un processus de sélection de modèle (pour le concret, dites que c'est une procédure par étapes basée sur l'AIC).
II. Lorsqu'un GLM a été ajusté via une méthode de régularisation (par exemple, en utilisant glmnet dans R).
Mon sentiment est que pour moi, la réponse est techniquement que vous devez utiliser un bootstrap pour les " choses normales que l'on fait avec une régression ", mais personne ne respecte vraiment cela.
Ajouter:
Après avoir obtenu quelques réponses et lu ailleurs, voici mon point de vue à ce sujet (pour tout le monde en bénéficier ainsi que pour recevoir une correction).
I.
A) RE: Erreur généraliser. Afin de généraliser les taux d'erreur sur les nouvelles données, lorsqu'il n'y a aucun ensemble de blocage, la validation croisée peut fonctionner mais vous devez répéter le processus complètement pour chaque pli - en utilisant des boucles imbriquées - donc toute sélection de caractéristique, réglage des paramètres, etc. doit être fait indépendamment à chaque fois. Cette idée devrait être valable pour tout effort de modélisation (y compris les méthodes pénalisées).
B) RE: Test d'hypothèse et intervalles de confiance du GLM.Lors de l'utilisation de la sélection de modèle (sélection d'entités, réglage des paramètres, sélection de variables) pour un modèle linéaire généralisé et un ensemble d'exclusion existe, il est permis de former le modèle sur une partition, puis d'ajuster le modèle sur les données restantes ou l'ensemble de données complet et utiliser ce modèle / ces données pour effectuer des tests d'hypothèses, etc. S'il n'y a pas d'ensemble d'exclusion, un bootstrap peut être utilisé, tant que le processus complet est répété pour chaque échantillon de bootstrap. Cela limite les tests d'hypothèses qui peuvent être effectués, car peut-être qu'une variable ne sera pas toujours sélectionnée par exemple.
C) RE: Ne pas effectuer de prédiction sur les futurs ensembles de données, puis adapter un modèle intentionnel guidé par la théorie et quelques tests d'hypothèse et même envisager de laisser toutes les variables dans le modèle (significatives ou non) (dans le sens de Hosmer et Lemeshow). Il s'agit d'un modèle de régression classique à petit ensemble de variables, qui permet ensuite d'utiliser les IC et le test d'hypothèse.
D) RE: régression pénalisée. Aucun conseil, considérez peut-être que cela ne convient qu'à la prédiction (ou comme un type de sélection de caractéristiques à appliquer ensuite à un autre ensemble de données comme dans B ci-dessus) car le biais introduit rend les CI et les tests d'hypothèse imprudents - même avec le bootstrap.