GLM après sélection ou régularisation du modèle

Je voudrais poser cette question en deux parties. Les deux traitent d'un modèle linéaire généralisé, mais le premier traite de la sélection du modèle et les autres de la régularisation.

Contexte: J'utilise des modèles GLM (linéaire, logistique, régression gamma) à la fois pour la prédiction et pour la description. Quand je fais référence aux « choses normales que l'on fait avec une régression », je veux dire en grande partie la description avec (i) des intervalles de confiance autour des coefficients, (ii) des intervalles de confiance autour des prédictions et (iii) des tests d'hypothèse concernant les combinaisons linéaires des coefficients tels que «est existe-t-il une différence entre le traitement A et le traitement B? ".

Perdez-vous légitimement la capacité de faire ces choses en utilisant la théorie normale sous chacun des éléments suivants? Et si oui, ces choses ne sont-elles vraiment bonnes que pour les modèles utilisés pour la prédiction pure?

I. Lorsqu'un GLM a été ajusté via un processus de sélection de modèle (pour le concret, dites que c'est une procédure par étapes basée sur l'AIC).

II. Lorsqu'un GLM a été ajusté via une méthode de régularisation (par exemple, en utilisant glmnet dans R).

Mon sentiment est que pour moi, la réponse est techniquement que vous devez utiliser un bootstrap pour les " choses normales que l'on fait avec une régression ", mais personne ne respecte vraiment cela.

Ajouter:
Après avoir obtenu quelques réponses et lu ailleurs, voici mon point de vue à ce sujet (pour tout le monde en bénéficier ainsi que pour recevoir une correction).

I.
A) RE: Erreur généraliser. Afin de généraliser les taux d'erreur sur les nouvelles données, lorsqu'il n'y a aucun ensemble de blocage, la validation croisée peut fonctionner mais vous devez répéter le processus complètement pour chaque pli - en utilisant des boucles imbriquées - donc toute sélection de caractéristique, réglage des paramètres, etc. doit être fait indépendamment à chaque fois. Cette idée devrait être valable pour tout effort de modélisation (y compris les méthodes pénalisées).

B) RE: Test d'hypothèse et intervalles de confiance du GLM.Lors de l'utilisation de la sélection de modèle (sélection d'entités, réglage des paramètres, sélection de variables) pour un modèle linéaire généralisé et un ensemble d'exclusion existe, il est permis de former le modèle sur une partition, puis d'ajuster le modèle sur les données restantes ou l'ensemble de données complet et utiliser ce modèle / ces données pour effectuer des tests d'hypothèses, etc. S'il n'y a pas d'ensemble d'exclusion, un bootstrap peut être utilisé, tant que le processus complet est répété pour chaque échantillon de bootstrap. Cela limite les tests d'hypothèses qui peuvent être effectués, car peut-être qu'une variable ne sera pas toujours sélectionnée par exemple.

C) RE: Ne pas effectuer de prédiction sur les futurs ensembles de données, puis adapter un modèle intentionnel guidé par la théorie et quelques tests d'hypothèse et même envisager de laisser toutes les variables dans le modèle (significatives ou non) (dans le sens de Hosmer et Lemeshow). Il s'agit d'un modèle de régression classique à petit ensemble de variables, qui permet ensuite d'utiliser les IC et le test d'hypothèse.

D) RE: régression pénalisée. Aucun conseil, considérez peut-être que cela ne convient qu'à la prédiction (ou comme un type de sélection de caractéristiques à appliquer ensuite à un autre ensemble de données comme dans B ci-dessus) car le biais introduit rend les CI et les tests d'hypothèse imprudents - même avec le bootstrap.

regression model-selection regularization

— B_Miner
source

Les gens le font parfois - sans le savoir (c.-à-d. Abuser des statistiques, car ils obtiennent le résultat souhaité) et en connaissance de cause (ils ont fait du bootstrap et cela n'a pas affecté le résultat de manière substantielle). Votre argument est valable, et le professeur Harrell le souligne dans la préface de son livre que le bootstrap est bénéfique.

— suncoolsu

Voici quelque chose comme "oui" pour votre point (II): arxiv.org/abs/1001.0188

— Alex

Réponses:

Vous pouvez consulter l'article de David Freedman, " A Note on Screening Regression Equations. " (Non fermé)

En utilisant des données complètement non corrélées dans une simulation, il montre que, s'il existe de nombreux prédicteurs par rapport au nombre d'observations, une procédure de dépistage standard produira une régression finale qui contiendra de nombreux prédicteurs significatifs (plus que par hasard) et un F très significatif. statistique. Le modèle final suggère qu'il est efficace pour prédire le résultat, mais ce succès est faux. Il illustre également ces résultats à l'aide de calculs asymptotiques. Les solutions suggérées comprennent le dépistage sur un échantillon et l'évaluation du modèle sur l'ensemble complet de données et l'utilisation d'au moins un ordre de grandeur de plus d'observations que de prédicteurs.

— Charlie
source

Remarque: Pour que le bootstrap soit une solution efficace, vous devez amorcer toute la procédure, en commençant avant tout filtrage, filtrer l'échantillon bootstrap, puis calculer les coefficients. Mais maintenant, vous avez différents ensembles de prédicteurs dans chaque régression et il n'est plus clair comment calculer la distribution pour l'un d'entre eux. Le démarrage des intervalles de confiance pour les valeurs prédites du résultat peut cependant être efficace.

— Charlie

@charlie: [Dois-je vous lire correctement que vous vous ne parlez qu'à I. (sélection du modèle) pas II. (pénalisé)] Êtes-vous en train de dire que pour les intervalles de prédiction, il est valide d'utiliser la sélection de modèle, puis d'amorcer les prédictions à partir de ce modèle, mais pour toute autre chose, vous devez amorcer l'ensemble du processus?

— B_Miner

@charlie Concernant la solution suggérée de criblage sur un échantillon. Serait-ce le long des lignes de partitionnement des données, (ab) en utilisant un ensemble (sélection de modèle, etc.) puis en appliquant ce modèle aux données restantes - et sur ces données avec le modèle qui était adapté en utilisant la théorie traditionnelle pour les tests d'hypothèse, les IC etc?

— B_Miner

Je ne pensais qu'à la sélection des modèles, mais c'est en grande partie parce que je ne connais pas grand-chose à la régression pénalisée. Je dirais que vous devez amorcer l'ensemble du processus afin d'obtenir des inférences sur les prédictions du modèle. Tout le problème est que, dans n'importe quel échantillon, vous trouverez probablement des corrélations fallacieuses qui sont amplifiées lorsque vous incluez certaines variables et en oubliez d'autres. La seule façon de contourner ce problème est de regarder plusieurs échantillons --- c'est-à-dire le bootstrap. Bien sûr, personne ne fait ça.

— Charlie

À droite, vous utilisez une partition de votre échantillon pour créer votre modèle à l'aide des procédures de sélection de modèle, puis faites votre inférence sur l'autre partition ou sur l'échantillon complet.

— Charlie

Concernant 1) Oui, vous perdez cela. Voir par exemple Harrell Regression Modeling Strategies, un livre publié par Wiley ou un article que j'ai présenté avec David Cassell intitulé "Stopping Stepwise" disponible par exemple www.nesug.org/proceedings/nesug07/sa/sa07.pdf

— Peter Flom - Réintégrer Monica
source

J'ai vu cet article - très intéressant. Deux questions. 1) Prenons une régression logistique. Il semble que la seule façon de mener des tests d'IC ou d'hypothèse est de construire un modèle dans le style de l'hosmer et du lemeshow (excluant tout ensemble de données avec un grand p)? Il vous reste donc à "utiliser" le modèle uniquement pour les estimations ponctuelles? 2) Votre article traite du lasso parmi d'autres alternatives. Pensez-vous que cela permet des tests d'hypothèse ultérieurs ou est "simplement" donné comme une meilleure option de sélection de modèle?

— B_Miner