Comparaison des résidus entre régressions OLS et non OLS

Supposons que vous vouliez estimer un modèle linéaire: ( observations de la réponse et prédicteurs) $n$ $p+1$

E (y_{i}) = β_{0} + \sum_{j = 1}^{p} β_{j} x_{i j}

$\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij}$

Pour ce faire, vous pouvez utiliser la solution OLS, c'est-à-dire choisir les coefficients de sorte que la somme des erreurs carrées soit minimale:

(β_{0}, β_{1}, \dots, β_{p})^{T} = \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sum_{i = 1}^{n} {(y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j})}^{2}

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2$

Alternativement, vous pouvez utiliser une autre fonction de perte, comme la somme des écarts absolus, de sorte que:

(β_{0}, β_{1}, \dots, β_{p})^{T} = \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sum_{i = 1}^{n} | y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j} |

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right|$

Supposons que vous ayez trouvé les paramètres des deux modèles et que vous souhaitiez choisir le modèle avec la plus petite valeur de la fonction de perte. Comment comparer les valeurs minimales atteintes par les fonctions de perte en général? (c'est-à-dire pas seulement ce cas spécifique - nous pourrions également essayer d'autres fonctions de perte basées sur $L_p$ ) Il semble y avoir une différence dans l'échelle des fonctions - l'une traite des carrés tandis que l'autre ne le fait pas.

regression loss-functions

— Comp_Warrior
source

Eh bien, les hypothèses de Markov montrent que la première équation est BLEUE, ou le meilleur estimateur linéaire sans biais. Dans ce cas, "Best" est déterminé en ayant les plus petites erreurs standard de tous les estimateurs possibles. N'est-ce pas une statistique adéquate?

— gregmacfarlane

notez que et ainsi

‖ x ‖_{2} \leq ‖ x ‖_{1} \leq \sqrt{n} ‖ x ‖_{2}

$\|x\|_2 \leq \|x\|_1 \leq \sqrt{n}\|x\|_2$

\underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sqrt{\sum_{i = 1}^{n} {(y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j})}^{2}} \leq \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sum_{i = 1}^{n} | y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j} | \leq \sqrt{(} n) \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sqrt{\sum_{i = 1}^{n} {(y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j})}^{2}}

$\underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2} \leq \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right| \leq \sqrt(n) \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2}$

— Manuel

@gmacfarlane Je veux définir ici le "meilleur" en termes de valeur minimale de la fonction de perte, au lieu de l'erreur standard sur les estimations des paramètres. (juste par curiosité)

— Comp_Warrior

Je pense que vous ne pouvez pas comparer les ajustements qui proviennent de 2 fonctions de perte différentes, car ce sont des réponses à des questions différentes. Une fois que vous décidez qu'une fonction de perte donnée est appropriée à votre situation, l'ajustement découle de cette décision. Vous ne pouvez pas le replier pour valider le choix de la fonction de perte sans que cela devienne circulaire. Si vous avez un autre critère qui peut être compris comme englobant les deux fonctions de perte, vous pouvez l'utiliser, mais vous devez l'avoir défini à l'avance.

— gung - Rétablir Monica

Notez que si le modèle de l'attente était correct et que la taille des échantillons était suffisamment grande pour que les deux estimations soient effectivement à la valeur de la population, la question se convertirait alors effectivement en "Comment comparer un écart moyen avec un écart-type"? Sous n'importe quelle hypothèse de distribution donnée, vous pouvez alors comparer leur taille attendue, mais bien sûr, dans de petits échantillons, les estimations elles-mêmes diffèrent.

— Glen_b -Reinstate Monica

(Conversion de mon commentaire en réponse.)

Je pense que vous ne pouvez pas comparer les ajustements qui proviennent de différentes fonctions de perte, car ils sont des réponses à différentes questions. Une fois que vous décidez qu'une fonction de perte donnée est appropriée à votre situation, l'ajustement découle de cette décision. Vous ne pouvez pas le replier pour valider le choix de la fonction de perte sans que cela devienne circulaire. Si vous avez un autre critère qui peut être compris comme englobant les deux fonctions de perte, vous pouvez l'utiliser, mais vous devez l'avoir défini à l'avance.

— gung - Réintégrer Monica
source