J'utilise le package R pénalisé pour obtenir des estimations réduites des coefficients pour un ensemble de données où j'ai beaucoup de prédicteurs et peu de connaissances sur ceux qui sont importants. Après avoir choisi les paramètres de réglage L1 et L2 et que je suis satisfait de mes coefficients, existe-t-il un moyen statistiquement solide de résumer l'ajustement du modèle avec quelque chose comme R au carré?
De plus, je suis intéressé à tester la signification globale du modèle (c'est-à-dire que R² = 0, ou faire tout = 0).
J'ai lu les réponses à une question similaire posée ici , mais cela n'a pas tout à fait répondu à ma question. Il y a un excellent tutoriel sur le package R que j'utilise ici , et l'auteur Jelle Goeman avait la note suivante à la fin du tutoriel concernant les intervalles de confiance des modèles de régression pénalisés:
Il est très naturel de demander des erreurs types de coefficients de régression ou d'autres quantités estimées. En principe, ces erreurs standard peuvent être facilement calculées, par exemple en utilisant le bootstrap.
Pourtant, ce paquet ne les fournit pas délibérément. La raison en est que les erreurs-types ne sont pas très significatives pour les estimations fortement biaisées telles que celles résultant des méthodes d'estimation pénalisées. L'estimation pénalisée est une procédure qui réduit la variance des estimateurs en introduisant un biais substantiel. Le biais de chaque estimateur est donc une composante majeure de son erreur quadratique moyenne, tandis que sa variance ne peut contribuer qu’une petite partie.
Malheureusement, dans la plupart des applications de régression pénalisée, il est impossible d'obtenir une estimation suffisamment précise du biais. Tout calcul basé sur le bootstrap ne peut donner qu'une évaluation de la variance des estimations. Des estimations fiables du biais ne sont disponibles que si des estimations fiables non biaisées sont disponibles, ce qui n'est généralement pas le cas dans les situations où des estimations pénalisées sont utilisées.
Signaler une erreur standard d'une estimation pénalisée ne raconte donc qu'une partie de l'histoire. Il peut donner une impression erronée d'une grande précision, ignorant complètement l'inexactitude causée par le biais. C'est certainement une erreur de faire des déclarations de confiance qui ne sont basées que sur une évaluation de la variance des estimations, comme le font les intervalles de confiance basés sur le bootstrap.