La régression OLS de base est une très bonne technique pour ajuster une fonction à un ensemble de données. Cependant, régression simple ne correspond à une ligne droite qui est constante pour toute la gamme possible de . Cela peut ne pas convenir à une situation donnée. Par exemple, les données montrent parfois une relation curviligne . Ceci peut être traité en régressant sur une transformation de , . Différentes transformations sont possibles. Dans les situations où la relation entre et est monotone , mais diminue progressivement, une transformation logarithmiqueY X f ( X ) X Y X X 2 X 3XOuiXF( X)XOuipeut être utilisé. Un autre choix populaire consiste à utiliser un polynôme où de nouveaux termes sont formés en élevant à une série de pouvoirs (par exemple, , , etc.). Cette stratégie est facile à mettre en œuvre et vous pouvez interpréter l'ajustement comme vous indiquant le nombre de `` plis '' existant dans vos données (où le nombre de plis est égal à la puissance la plus élevée requise moins 1). XX2X3
Cependant, les régressions basées sur le logarithme ou un exposant de la covariable ne s'adapteront de manière optimale que lorsque c'est la nature exacte de la vraie relation. Il est tout à fait raisonnable d'imaginer qu'il existe une relation curviligne entre et différente des possibilités offertes par ces transformations. Ainsi, nous arrivons à deux autres stratégies. La première approche est le loess , une série de régressions linéaires pondérées calculées sur une fenêtre mobile. Cette approche est plus ancienne et mieux adaptée à l'analyse exploratoire des données . YXOui
L'autre approche consiste à utiliser des splines. A c'est plus simple, une spline est un nouveau terme qui s'applique à une partie seulement de la plage de . Par exemple, peut aller de 0 à 1, et le terme spline ne peut aller que de 0,7 à 1. Dans ce cas, 0,7 est le nœud . Un terme de spline simple et linéaire serait calculé comme suit:
et serait ajouté à votre modèle, en plus du origineX X s p l i n e = { 0XX XX 3 s p l i n e
Xs p l i n e= { 0X- .7si X≤ 0,7si X> .7
Xterme. Le modèle ajusté montrera une rupture nette à 0,7 avec une ligne droite de 0 à 0,7, et la ligne continue avec une pente différente de 0,7 à 1. Cependant, un terme de spline n'a pas besoin d'être linéaire. Plus précisément, il a été déterminé que les splines cubiques sont particulièrement utiles (c.-à-d. ). La rupture brutale n'a pas besoin d'être là non plus. Des algorithmes ont été développés qui contraignent les paramètres ajustés de telle sorte que les dérivées première et seconde correspondent aux nœuds, ce qui rend les nœuds impossibles à détecter en sortie. Le résultat final de tout cela est qu'avec quelques nœuds (généralement 3-5) dans des emplacements choisis (que le logiciel peut déterminer pour vous), vous pouvez reproduire à peu près
n'importe quelX3s p l i n ecourbe. De plus, les degrés de liberté sont calculés correctement, vous pouvez donc faire confiance aux résultats, ce qui n'est pas vrai lorsque vous regardez d'abord vos données, puis décidez d'ajuster un terme au carré parce que vous avez vu un virage. De plus, tout cela n'est qu'une autre version (bien que plus compliquée) du modèle linéaire de base. Ainsi, tout ce que nous obtenons avec les modèles linéaires vient avec cela (par exemple, les prédictions, les résidus, les bandes de confiance, les tests, etc.) Ce sont
des avantages
substantiels .
La plus simple introduction à ces sujets que je connaisse est: