Lorsque j'utilise des modèles de régression, je me sens réticent à utiliser par défaut des hypothèses d'association linéaire; au lieu de cela, j'aime explorer la forme fonctionnelle des relations entre les variables dépendantes et explicatives en utilisant une régression de lissage non paramétrique (par exemple , des modèles additifs généralisés , lowess / lowess , lissage de la ligne courante , etc.) avant d'estimer un modèle paramétrique en utilisant, le cas échéant, une régression des moindres carrés non linéaires pour estimer les paramètres des fonctions suggérées par le modèle non paramétrique.
Quelle est la bonne façon de penser à effectuer une validation croisée dans la phase de régression de lissage non paramétrique d'une telle approche? Je me demande si je pourrais rencontrer une situation où dans l'échantillon de retenue aléatoire A une relation approximée par une fonction de charnière linéaire "bâton cassé" pourrait être évidente, tandis que l'échantillon de retenue B suggère une relation qui serait mieux approchée par une fonction de charnière à seuil parabolique.
Prendrait-on une approche non exhaustive pour retenir une partie aléatoire des données, effectuer la régression non paramétrique, interpréter des formes fonctionnelles plausibles pour le résultat, et répéter cela quelques fois (gérables par l'homme) et des formes fonctionnelles plausibles mentalement ?
Ou faudrait-il adopter une approche exhaustive (par exemple LOOCV), et utiliser un algorithme pour «lisser tous les lissages» et utiliser le plus lisse des lissages pour informer des formes fonctionnelles plausibles? (Bien que, à la réflexion, je pense que LOOCV est peu susceptible d'entraîner des relations fonctionnelles très différentes, car une forme fonctionnelle sur un échantillon suffisamment grand est peu susceptible d'être modifiée par un seul point de données.)
Mes applications impliqueront généralement un nombre gérable de variables prédictives (une poignée à quelques dizaines, par exemple), mais mes tailles d'échantillons vont de quelques centaines à quelques centaines de milliers. Mon objectif est de produire un modèle intuitivement communiqué et facilement traduit qui pourrait être utilisé pour faire des prédictions par des personnes avec des ensembles de données autres que le mien, et qui n'incluent pas les variables de résultat.
Les références dans les réponses sont les bienvenues.