Je n'ai pas d'exemple ou de tâche spécifique en tête. Je suis juste nouveau sur l'utilisation des b-splines et je voulais mieux comprendre cette fonction dans le contexte de régression.
Supposons que nous voulons évaluer la relation entre la variable de réponse et certains prédicteurs . Les prédicteurs incluent certaines variables numériques ainsi que certaines variables catégorielles.
Disons qu'après l'ajustement d'un modèle de régression, l'une des variables numériques, par exemple est significative. Une étape logique par la suite consiste à évaluer si des polynômes d'ordre supérieur, par exemple: et sont nécessaires afin d'expliquer correctement la relation sans surajustement.
Mes questions sont:
À quel moment choisissez-vous entre des b-splines ou un simple polynôme d'ordre supérieur. par exemple dans R:
y ~ poly(x1,3) + x2 + x3
contre
y ~ bs(x1,3) + x2 + x3
Comment pouvez-vous utiliser des tracés pour informer votre choix entre ces deux et ce qui se passe si ce n'est pas vraiment clair à partir des tracés (par exemple: en raison de quantités massives de points de données)
Comment évalueriez-vous les termes d'interaction bidirectionnelle entre et disons
Comment les changements ci-dessus pour différents types de modèles
Envisageriez-vous de ne jamais utiliser de polynômes d'ordre élevé et de toujours ajuster des b-splines et de pénaliser la grande flexibilité?
mgcv
, pourquoi ne pas utiliser des modèles additifs (généralisés). La sélection de la fluidité est automatique et les méthodes inférentielles sont bien développées.