L'AIC et la régression de crête peuvent être rendues compatibles lorsque certaines hypothèses sont faites. Cependant, il n'y a pas de méthode unique pour choisir un retrait pour la régression des crêtes, donc pas de méthode générale pour lui appliquer l'AIC. La régression des crêtes est un sous-ensemble de la régularisation de Tikhonov . De nombreux critères peuvent être appliqués pour sélectionner les facteurs de lissage pour la régularisation de Tikhonov, par exemple, voir ceci . Pour utiliser l'AIC dans ce contexte, il existe un article qui fait des hypothèses assez spécifiques sur la façon d'effectuer cette régularisation, sélection des paramètres de régularisation basée sur la complexité de l'information pour la solution de problèmes inverses mal conditionnés . En particulier, cela suppose
"Dans un cadre statistique, ... choisir la valeur du paramètre de régularisation α , et en utilisant la méthode du maximum de vraisemblance pénalisée (MPL) .... Si nous considérons le bruit gaussien non corrélé avec variance et utilisons la pénalité une norme compliquée, voir le lien ci-dessus , la solution MPL est la même que la solution régularisée de Tikhonov (1963). "σ2p ( x ) =
La question devient alors: faut-il faire ces hypothèses? La question des degrés de liberté nécessaires est secondaire à celle de savoir si l'AIC et la régression des crêtes sont utilisées dans un contexte cohérent. Je suggère de lire le lien pour plus de détails. Je n'évite pas la question, c'est juste que l'on peut utiliser beaucoup de choses comme cibles de crête, par exemple, on pourrait utiliser le facteur de lissage qui optimise l'AIC lui-même . Donc, une bonne question en mérite une autre: "Pourquoi s'embêter avec l'AIC dans un contexte de crête?" Dans certains contextes de régression de crête, il est difficile de voir comment l'AIC pourrait être rendu pertinent. Par exemple, une régression de crête a été appliquée afin de minimiser la propagation d'erreur relative de , c'est-à-dire minb[ SD ( b )b] de la distribution gamma (GD) donnée par
GD(t;a,b)=1te−bt(bt)aΓ(a);t≥0,
selon ce document . En particulier, cette difficulté se pose parce que dans cet article, c'est, en effet, le A rea U nder le temps C urve (AUC) qui est optimisé, et non la probabilité maximale (ML) de bonté de ajustement entre échantillons de temps mesurés . Pour être clair, cela est dû au fait que l'AUC est une intégrale mal posée et, sinon, par exemple, en utilisant ML, l'ajustement de la distribution gamma manquerait de robustesse. Ainsi, pour cette application particulière, la probabilité maximale, donc l'AIC, n'est en fait pas pertinente. (Il est dit que l'AIC est utilisé pour la prédiction et le BIC pour la qualité de l'ajustement. Cependant, la prédiction et la qualité de l'ajustement ne sont liées qu'indirectement à une mesure robuste de l'ASC.)[0,∞)[ t 1 , t n ][t1,tn]
Quant à la réponse à la question , la première référence dans le texte de la question dit que "Le point principal est de noter que est une fonction décroissante de [ Sic , le facteur de lissage] avec [ Sic , le nombre effectif des paramètres, voir trace de la matrice de chapeau ci-dessous] à et à . " Ce qui signifie que est égal au nombre de paramètres moins le nombre de quantités estimées, lorsqu'il n'y a pas de lissage, c'est-à-dire aussi lorsque la régression est la même que les moindres carrés ordinaires et diminue à aucundfλd f = p λ = 0 d f = 0 λ = ∞ d f d f ∞ d fdf=pλ=0df=0λ=∞dfdf lorsque le facteur de lissage augmente à . Notez que pour un lissage infini, l'ajustement est une ligne plate, quelle que soit la fonction de densité ajustée. Enfin, que le nombre exact de est une fonction.∞df
"On peut montrer que
), où { } sont les valeurs propres de " Fait intéressant, cette même référence définit comme la trace de la matrice chapeau, voir déf .dfridge=∑(λi/(λi+λλiXTXdf