Validation croisée avec régressions de lissage non paramétriques

Lorsque j'utilise des modèles de régression, je me sens réticent à utiliser par défaut des hypothèses d'association linéaire; au lieu de cela, j'aime explorer la forme fonctionnelle des relations entre les variables dépendantes et explicatives en utilisant une régression de lissage non paramétrique (par exemple , des modèles additifs généralisés , lowess / lowess , lissage de la ligne courante , etc.) avant d'estimer un modèle paramétrique en utilisant, le cas échéant, une régression des moindres carrés non linéaires pour estimer les paramètres des fonctions suggérées par le modèle non paramétrique.

Quelle est la bonne façon de penser à effectuer une validation croisée dans la phase de régression de lissage non paramétrique d'une telle approche? Je me demande si je pourrais rencontrer une situation où dans l'échantillon de retenue aléatoire A une relation approximée par une fonction de charnière linéaire "bâton cassé" pourrait être évidente, tandis que l'échantillon de retenue B suggère une relation qui serait mieux approchée par une fonction de charnière à seuil parabolique.

Prendrait-on une approche non exhaustive pour retenir une partie aléatoire des données, effectuer la régression non paramétrique, interpréter des formes fonctionnelles plausibles pour le résultat, et répéter cela quelques fois (gérables par l'homme) et des formes fonctionnelles plausibles mentalement ?

Ou faudrait-il adopter une approche exhaustive (par exemple LOOCV), et utiliser un algorithme pour «lisser tous les lissages» et utiliser le plus lisse des lissages pour informer des formes fonctionnelles plausibles? (Bien que, à la réflexion, je pense que LOOCV est peu susceptible d'entraîner des relations fonctionnelles très différentes, car une forme fonctionnelle sur un échantillon suffisamment grand est peu susceptible d'être modifiée par un seul point de données.)

Mes applications impliqueront généralement un nombre gérable de variables prédictives (une poignée à quelques dizaines, par exemple), mais mes tailles d'échantillons vont de quelques centaines à quelques centaines de milliers. Mon objectif est de produire un modèle intuitivement communiqué et facilement traduit qui pourrait être utilisé pour faire des prédictions par des personnes avec des ensembles de données autres que le mien, et qui n'incluent pas les variables de résultat.

Les références dans les réponses sont les bienvenues.

cross-validation nonparametric-regression

— Alexis
source

Cela aiderait à clarifier votre question: que voulez-vous réaliser avec la validation croisée? Déterminez quel modèle de lissage fonctionne le mieux?

— jubo

Je vous remercie. Je souhaite générer des modèles prédictifs paramétriques à validation croisée. Cependant, je ne suis pas à l'aise avec l'hypothèse de relations fonctionnelles linéaires entre les variables dépendantes et indépendantes. Par conséquent, l'approche non linéaire non paramétrique -> paramétrique que j'ai décrite ci-dessus. Je souhaite obtenir un CV à la première étape afin de valider la ou les formes fonctionnelles suggérées (par exemple, des sous-échantillons différents suggèrent-ils une fonction différente?).

— Alexis

-1

Il me semble qu'il y a deux confusions dans votre question:

Premièrement, la régression linéaire (moindres carrés) ne nécessite pas de relation linéaire dans les variables indépendantes , mais dans les paramètres .

Donc $y=a + b \cdot x e^{-x} + c \cdot \frac{z}{1 + x^2}$ peut être estimé par les moindres carrés ordinaires ( $y$ est une fonction linéaire des paramètres $a$ , $b$ , $c$ ), tandis que $y = a + b \cdot x + b^2 \cdot z$ ne peux pas ( $y$ n'est pas linéaire dans le paramètre $b$ ).
Deuxièmement, comment déterminez-vous un modèle fonctionnel "correct" à partir d'un lisseur, c'est-à-dire comment passez-vous de l'étape 1 à l'étape 2?

Pour autant que je sache, il n'y a aucun moyen de déduire "quelles fonctions des régresseurs utiliser" à partir de techniques de lissage telles que les splines, les réseaux de neurones, etc. Sauf peut-être en traçant les sorties lissées et en déterminant les relations par intuition, mais cela ne fonctionne pas '' Cela me semble très robuste, et il semble que l'on n'a pas besoin de lissage pour cela, juste des nuages de points.

Si votre objectif final est un modèle de régression linéaire et que votre problème est que vous ne savez pas exactement quelle forme fonctionnelle des régresseurs doit être utilisée, il vaudrait mieux équiper directement un modèle de régression linéaire régularisé (tel que LASSO ) avec un large expansion de base des régresseurs d'origine (tels que les polynômes des régresseurs, les exponentielles, les logs, ...). La procédure de régularisation devrait ensuite éliminer les régresseurs inutiles, vous laissant avec un modèle (si tout va bien) paramétrique. Et vous pouvez utiliser la validation croisée pour déterminer le paramètre de pénalisation optimal (qui détermine les degrés de liberté réels du modèle).

Vous pouvez toujours utiliser des régressions non paramétriques comme référence pour l'erreur de généralisation, comme moyen de vérifier que votre modèle linéaire régularisé prédit des données externes tout aussi bien qu'un lissage non paramétrique.

— jubo
source

Votre 1er point: je communique mal. Je suis intéressé par les paramétrisations non linéaires comme vous l'indiquez (par exemple la fonction charnière:

β_{x} x + β_{h} max (x - θ, 0)

$\beta_{x}x + \beta_{\text{h}}\max(x-\theta,0)$ , où est également un paramètre à estimer). La raison de cette question est parce que je me demande: le sous-échantillon de maintien A suggérera-t-il, par exemple, une fonction de charnière «bâton cassé», tandis que le sous-échantillon de maintien B suggérera une fonction de charnière à seuil parabolique? Je ne recherche pas des relations fonctionnelles "correctes" (éventuellement non linéaires dans les paramétrisations), mais "prédictives". CV a-t-il un rôle à jouer ici?

θ

$\theta$

— Alexis

Votre 2e point: vous avez raison de dire que passer de l'étape 1 à l'étape 2 implique l'intuition. Cependant, l'un des avantages de l'utilisation d'une telle approche "non robuste" (par opposition aux approches d'ajustement de courbe algorithmique), est (selon mon expérience), on peut communiquer la relation entre le résultat et le prédicteur avec une paramétrisation raisonnablement intuitive (par exemple, les fonctions polynomiales fractionnaires qui ne pensez pas à une forme / forme particulière), avec des erreurs qui sont raisonnablement proches de l'approche algorithmique. Donc: mieux que les hypothèses de paramètres linéaires, mais conservant l'interprétabilité pour le public.

— Alexis

Il n'est pas clair pour moi que LASSO répondrait à mes besoins: je ne suis pas dans une situation .

p > n

$p > n$

— Alexis

Je vous exhorte à reconsidérer votre commentaire au lasso. Bien que le lasso ait été conçu avec à l'esprit, son utilité ne se limite pas à cette situation, en particulier lors de la recherche d'un (petit) modèle parcimonieux à fort pouvoir prédictif. jubo a suggéré d'augmenter le nombre de covariables en ajoutant une large expansion de base, des splines ou des polynômes orthogonaux, puis en laissant le lasso choisir les plus pertinentes.

p > n

$p > n$

— Matthew Drury

Je ne suis pas sûr qu'une approche lasso des splines soit vraiment idéale, car ils ont tendance à avoir un support étroit (pour les cubics, je crois qu'ils sont pris en charge entre quatre nœuds consécutifs). Une combinaison de pénalités L1 et L2 avec glmnet peut cependant fonctionner.

— Matthew Drury