Les degrés de liberté ne sont pas des nombres entiers dans un certain nombre de contextes. En effet, dans quelques circonstances, vous pouvez établir que les degrés de liberté pour ajuster les données pour certains modèles particuliers doivent être compris entre une valeur et .kk + 1
Nous considérons généralement les degrés de liberté comme le nombre de paramètres libres, mais il y a des situations où les paramètres ne sont pas complètement libres et ils peuvent alors être difficiles à compter. Cela peut se produire lors du lissage / régularisation, par exemple.
Les cas de méthodes de régression / noyau pondérées localement et de splines de lissage sont des exemples d'une telle situation - un nombre total de paramètres libres n'est pas quelque chose que vous pouvez facilement compter en additionnant des prédicteurs, donc une idée plus générale des degrés de liberté est nécessaire.
Dans les modèles additifs généralisés sur lesquels gam
repose en partie, Hastie et Tibshirani (1990) [1] (et en effet dans de nombreuses autres références) pour certains modèles où l'on peut écrire , les degrés de liberté sont parfois considérés comme (ils discutent également de ou ). La première est cohérente avec l'approche plus habituelle où les deux fonctionnent (par exemple en régression, où dans des situations normales sera la dimension de colonne de ), mais quand est symétrique et idempotent, les trois les formules sont les mêmes.y^= A ytr( A )tr( A AT)tr( 2 A - A AT)tr( A )XUNE
[Je n'ai pas cette référence à portée de main pour vérifier suffisamment de détails; une alternative des mêmes auteurs (plus Friedman) qui est facile à trouver est Elements of Statistical Learning [2]; voir par exemple l'équation 5.16, qui définit les degrés de liberté effectifs d'une spline de lissage comme (dans ma notation)]tr( A )
Plus généralement encore, Ye (1998) [3] a défini les degrés de liberté généralisés comme , qui est la somme des sensibilités des valeurs ajustées à leurs observations correspondantes. À son tour, cela est cohérent avec où cette définition fonctionne. Pour utiliser la définition de Ye, vous devez seulement être en mesure de calculer et de perturber légèrement les données (afin de calculer numériquement). Cela le rend très largement applicable.∑je∂y^je∂yjetr( A )y^∂y^je∂yje
Pour des modèles comme ceux ajustés par gam
, ces différentes mesures ne sont généralement pas entières.
(Je recommande fortement de lire la discussion de ces références sur cette question, bien que l'histoire puisse devenir plus compliquée dans certaines situations. Voir, par exemple [4])
[1] Hastie, T. et Tibshirani, R. (1990),
Generalized Additive Models
London: Chapman et Hall.
[2] Hastie, T., Tibshirani, R. et Friedman, J. (2009),
The Elements of Statistical Learning: Data Mining, Inference, and Prediction , 2ndEd
Springer-Verlag.
https://statweb.stanford.edu/~tibs/ElemStatLearn/
[3] Ye, J. (1998),
"On Measuring and Correcting the Effects of Data Mining and Model Selection"
Journal of the American Statistical Association , Vol. 93, n ° 441, pp 120-131
[4] Janson, L., Fithian, W. et Hastie, T. (2013),
«Degrés de liberté effectifs: une métaphore erronée»
https://arxiv.org/abs/1312.7851