AIC de régression de crête: degrés de liberté vs nombre de paramètres

Je veux calculer l'AICc d'un modèle de régression de crête. Le problème est le nombre de paramètres. Pour la régression linéaire, la plupart des gens suggèrent que le nombre de paramètres est égal au nombre de coefficients estimés plus sigma (la variance de l'erreur).

En ce qui concerne la régression des crêtes, j'ai lu que la trace de la matrice du chapeau - le degré de liberté (df) - est simplement utilisée comme le nombre de paramètres terme dans la formule AIC (par exemple ici ou ici ).

Est-ce correct? Puis-je également simplement utiliser le df pour calculer l'AICc? Puis-je simplement ajouter +1 au df pour tenir compte de la variance d'erreur?

— julien
source

J'aime cette question car les entrées générales pour AICc sont RSS, k et n - mais elle a tendance à ne pas sélectionner des modèles robustes plutôt que des modèles à moindre erreur pour le même nombre de paramètres. Si vous utilisez la même approche d'ajustement pour les modèles candidats et que vous ajustez les mêmes données, la sélection de modèle est la sélection de modèle. J'aime la question de savoir comment mesurer le mieux la théorie de l'information avec le même modèle et les mêmes données, mais en utilisant différents types d'ajustement tels que l'erreur la moins carrée et la perte de Huber.

— EngrStudent

@EngrStudent, juste une petite note: RSS est un cas particulier de vraisemblance normale. Lorsqu'une distribution différente (non normale) est supposée, l'AIC ne contiendra pas RSS mais plutôt la log-vraisemblance du modèle. Aussi, les types d'ajustement : voulez-vous dire les fonctions de perte par lesquelles le modèle est évalué ou la fonction de perte utilisée pour ajuster le modèle, ou encore autre chose?

— Richard Hardy

Voir: web.mit.edu/lrosasco/www/publications/model_focm.pdf

— kjetil b halvorsen

@ RichardHardy - Vous avez raison sur la probabilité normale! En pratique, le théorème central limite est sur-utilisé. Dans ce cas, cela signifiait la même chose quand je dis «fonction d'ajustement» et vous dites «fonction de perte». Je pense aux moindres carrés en termes de pseudo-inverses en premier et de métriques d'erreur en second. C'est un artefact de "séquence d'apprentissage" dans mes processus de pensée et de communication.

— EngrStudent

@EngrStudent, merci. A noter également que j'ai proposé deux utilisations pour une fonction de perte: l'ajustement (fonction objective empirique dont dérive un estimateur) et l'évaluation (fonction objective théorique que nous souhaitons optimiser).

— Richard Hardy

L'AIC et la régression de crête peuvent être rendues compatibles lorsque certaines hypothèses sont faites. Cependant, il n'y a pas de méthode unique pour choisir un retrait pour la régression des crêtes, donc pas de méthode générale pour lui appliquer l'AIC. La régression des crêtes est un sous-ensemble de la régularisation de Tikhonov . De nombreux critères peuvent être appliqués pour sélectionner les facteurs de lissage pour la régularisation de Tikhonov, par exemple, voir ceci . Pour utiliser l'AIC dans ce contexte, il existe un article qui fait des hypothèses assez spécifiques sur la façon d'effectuer cette régularisation, sélection des paramètres de régularisation basée sur la complexité de l'information pour la solution de problèmes inverses mal conditionnés . En particulier, cela suppose

"Dans un cadre statistique, ... choisir la valeur du paramètre de régularisation α , et en utilisant la méthode du maximum de vraisemblance pénalisée (MPL) .... Si nous considérons le bruit gaussien non corrélé avec variance et utilisons la pénalité une norme compliquée, voir le lien ci-dessus , la solution MPL est la même que la solution régularisée de Tikhonov (1963). " $\sigma ^2$ $p(x) =$

La question devient alors: faut-il faire ces hypothèses? La question des degrés de liberté nécessaires est secondaire à celle de savoir si l'AIC et la régression des crêtes sont utilisées dans un contexte cohérent. Je suggère de lire le lien pour plus de détails. Je n'évite pas la question, c'est juste que l'on peut utiliser beaucoup de choses comme cibles de crête, par exemple, on pourrait utiliser le facteur de lissage qui optimise l'AIC lui-même . Donc, une bonne question en mérite une autre: "Pourquoi s'embêter avec l'AIC dans un contexte de crête?" Dans certains contextes de régression de crête, il est difficile de voir comment l'AIC pourrait être rendu pertinent. Par exemple, une régression de crête a été appliquée afin de minimiser la propagation d'erreur relative de , c'est-à-dire min $b$ $\left [ \dfrac{\text{SD}(b)}{b}\right ]$ de la distribution gamma (GD) donnée par

GD (t; a, b) = \frac{1}{t} \frac{e^{- b t} (b t)^{a}}{Γ (a)}; t \geq 0,

$\text{GD}(t; a,b) = \,\dfrac{1}{t}\;\dfrac{e^{-b \, t}(b \, t)^{\,a} }{\Gamma (a)} \;\; \;;\hspace{2em}t\geq 0 \;\; \;\;,\\ %\tabularnewline$

selon ce document . En particulier, cette difficulté se pose parce que dans cet article, c'est, en effet, le A rea U nder le temps C urve (AUC) qui est optimisé, et non la probabilité maximale (ML) de bonté de ajustement entre échantillons de temps mesurés . Pour être clair, cela est dû au fait que l'AUC est une intégrale mal posée et, sinon, par exemple, en utilisant ML, l'ajustement de la distribution gamma manquerait de robustesse. Ainsi, pour cette application particulière, la probabilité maximale, donc l'AIC, n'est en fait pas pertinente. (Il est dit que l'AIC est utilisé pour la prédiction et le BIC pour la qualité de l'ajustement. Cependant, la prédiction et la qualité de l'ajustement ne sont liées qu'indirectement à une mesure robuste de l'ASC.) $[0,\infty)$ $[t_1,t_n]$

Quant à la réponse à la question , la première référence dans le texte de la question dit que "Le point principal est de noter que est une fonction décroissante de [ Sic , le facteur de lissage] avec [ Sic , le nombre effectif des paramètres, voir trace de la matrice de chapeau ci-dessous] à et à . " Ce qui signifie que est égal au nombre de paramètres moins le nombre de quantités estimées, lorsqu'il n'y a pas de lissage, c'est-à-dire aussi lorsque la régression est la même que les moindres carrés ordinaires et diminue à aucun $df$ $\lambda$ $df = p$ $\lambda = 0$ $df = 0$ $\lambda=\infty$ $df$ $df$ lorsque le facteur de lissage augmente à . Notez que pour un lissage infini, l'ajustement est une ligne plate, quelle que soit la fonction de densité ajustée. Enfin, que le nombre exact de est une fonction. $\infty$ $df$

"On peut montrer que ), où { } sont les valeurs propres de " Fait intéressant, cette même référence définit comme la trace de la matrice chapeau, voir déf . $df_{ridge}= \sum(\lambda_i / (\lambda_i + \lambda$ $\lambda_i$ $X^{\text{T}} X$ $df$

— Carl
source