Je travaille sur un modèle de coût prédictif où l'âge du patient (une quantité entière mesurée en années) est l'une des variables prédictives. Une forte relation non linéaire entre l'âge et le risque d'hospitalisation est évidente:
J'envisage une spline de lissage de régression pénalisée pour l'âge du patient. Selon The Elements of Statistical Learning (Hastie et al, 2009, p.151), le placement optimal des nœuds est d'un nœud par valeur unique d'âge des membres.
Étant donné que je conserve l'âge comme un entier, la spline de lissage pénalisée équivaut-elle à exécuter une régression de crête ou un lasso avec 101 variables d'indicateur d'âge distinctes, une par valeur d'âge trouvée dans l'ensemble de données (moins une pour référence)? Une sur-paramétrisation est alors évitée car les coefficients de chaque indicateur d'âge sont réduits à zéro.