Fonctions d'influence et OLS

15

J'essaie de comprendre comment fonctionnent les fonctions d'influence. Quelqu'un pourrait-il expliquer dans le contexte d'une simple régression OLS

y_{je} = α + β \cdot X_{je} + ε_{je}

$\begin{equation} y_i = \alpha + \beta \cdot x_i + \varepsilon_i \end{equation}$

où je veux la fonction d'influence pour . $\beta$

regression least-squares

— stevejb
source

2

Il n'y a pas encore de question spécifique ici: voulez-vous voir comment la fonction d'influence est calculée? Voulez-vous un exemple empirique spécifique? Une explication heuristique de ce que cela signifie?

— whuber

1

Si vous recherchez l'article de Frank Critchley de 1986 "influence les fonctions dans les principaux composants" (je ne me souviens pas du nom exact de l'article). Il définit ici la fonction d'influence pour la régression ordinaire (qui peut ou non prouver ma réponse fausse).

— probabilitéislogic

15

Les fonctions d'influence sont essentiellement un outil analytique qui peut être utilisé pour évaluer l'effet (ou "influence") de la suppression d'une observation sur la valeur d'une statistique sans avoir à recalculer cette statistique . Ils peuvent également être utilisés pour créer des estimations de variance asymptotique. Si l'influence est égale à variance asymptotique est . $I$ $\frac{I^2}{n}$

La façon dont je comprends les fonctions d'influence est la suivante. Vous avez une sorte de CDF théorique, noté . Pour les OLS simples, vous avez $F_{i}(y)=Pr(Y_{i}<y_{i})$

P r (Y_{i} < y_{i}) = P r (α + β x_{i} + ϵ_{i} < y_{i}) = Φ (\frac{y_{i} - (α + β x_{i})}{σ})

$Pr(Y_{i}<y_{i})=Pr(\alpha+\beta x_{i} + \epsilon_{i} < y_{i})=\Phi\left(\frac{y_{i}-(\alpha+\beta x_{i})}{\sigma}\right)$ Où est le CDF normal standard, et est la variance d'erreur. Vous pouvez maintenant montrer que toute statistique sera une fonction de ce CDF, d'où la notation (c'est-à-dire une fonction de ). Supposons maintenant que nous modifions la fonction

d'un "petit peu", en

Φ (z)

$\Phi(z)$

σ^{2}

$\sigma^2$

S (F)

$S(F)$

F

$F$

F

$F$

Où

et

F_{(i)} (z) = (1 + ζ) F (z) - ζ δ_{(i)} (z)

$F_{(i)}(z)=(1+\zeta)F(z)-\zeta \delta_{(i)}(z)$

δ_{i} (z) = I (y_{i} < z)

$\delta_{i}(z)=I(y_{i}<z)$

. Ainsi

représente le CDF des données avec le "ième" point de données supprimé. On peut faire une série taylor de

sur

. Cela donne:

ζ = \frac{1}{n - 1}

$\zeta=\frac{1}{n-1}$

F_{(i)}

$F_{(i)}$

F_{(i)} (z)

$F_{(i)}(z)$

ζ = 0

$\zeta=0$

S [F_{(i)} (z, ζ)] \approx S [F_{(i)} (z, 0)] + ζ [\frac{\partial S [F_{(i)} (z, ζ)]}{\partial ζ} |_{ζ = 0}]

$S[F_{(i)}(z,\zeta)] \approx S[F_{(i)}(z,0)]+\zeta\left[\frac{\partial S[F_{(i)}(z,\zeta)]}{\partial \zeta}|_{\zeta=0}\right]$

Notez que donc nous obtenons: $F_{(i)}(z,0)=F(z)$

S [F_{(i)} (z, ζ)] \approx S [F (z)] + ζ [\frac{\partial S [F_{(i)} (z, ζ)]}{\partial ζ} |_{ζ = 0}]

$S[F_{(i)}(z,\zeta)] \approx S[F(z)]+\zeta\left[\frac{\partial S[F_{(i)}(z,\zeta)]}{\partial \zeta}|_{\zeta=0}\right]$

La dérivée partielle est appelée ici la fonction d'influence. Cela représente donc une correction approximative de "premier ordre" à apporter à une statistique en raison de la suppression de la "ième" observation. Notez que dans la régression, le reste ne va pas à zéro de façon asymétrique, de sorte qu'il s'agit d'une approximation des changements que vous pouvez réellement obtenir. Maintenant écrivez comme: $\beta$

β = \frac{\frac{1}{n} \sum_{j = 1}^{n} (y_{j} - \bar{y}) (x_{j} - \bar{x})}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}}

$\beta=\frac{\frac{1}{n}\sum_{j=1}^{n}(y_{j}-\overline{y})(x_{j}-\overline{x})}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}$

Ainsi, le bêta est fonction de deux statistiques: la variance de X et la covariance entre X et Y. Ces deux statistiques ont des représentations en termes de CDF comme:

et où

c o v (X, Y) = \int (X - μ_{x} (F)) (Y - μ_{y} (F)) d F

$cov(X,Y)=\int(X-\mu_x(F))(Y-\mu_y(F))dF$

v a r (X) = \int (X - μ_{x} (F))^{2} d F

$var(X)=\int(X-\mu_x(F))^{2}dF$

μ_{x} = \int x d F

$\mu_x=\int xdF$

$F\rightarrow F_{(i)}=(1+\zeta)F-\zeta \delta_{(i)}$

μ_{x (i)} = \int x d [(1 + ζ) F - ζ δ_{(i)}] = μ_{x} - ζ (x_{i} - μ_{x})

$\mu_{x(i)}=\int xd[(1+\zeta)F-\zeta \delta_{(i)}]=\mu_x-\zeta(x_{i}-\mu_x)$

V a r (X)_{(i)} = \int (X - μ_{x (i)})^{2} d F_{(i)} = \int (X - μ_{x} + ζ (x_{i} - μ_{x}))^{2} d [(1 + ζ) F - ζ δ_{(i)}]

$Var(X)_{(i)}=\int(X-\mu_{x(i)})^{2}dF_{(i)}=\int(X-\mu_x+\zeta(x_{i}-\mu_x))^{2}d[(1+\zeta)F-\zeta \delta_{(i)}]$

$\zeta^{2}$

V a r (X)_{(i)} \approx V a r (X) - ζ [(x_{i} - μ_{x})^{2} - V a r (X)]

$Var(X)_{(i)}\approx Var(X)-\zeta\left[(x_{i}-\mu_x)^2-Var(X)\right]$

C o v (X, Y)_{(i)} \approx C o v (X, Y) - ζ [(x_{i} - μ_{x}) (y_{i} - μ_{y}) - C o v (X, Y)]

$Cov(X,Y)_{(i)}\approx Cov(X,Y)-\zeta\left[(x_{i}-\mu_x)(y_{i}-\mu_y)-Cov(X,Y)\right]$

$\beta_{(i)}$ $\zeta$

β_{(je)} (ζ) \approx \frac{C o v (X, Oui) - ζ [(X_{je} - μ_{X}) (y_{je} - μ_{y}) - C o v (X, Oui)]}{V une r (X) - ζ [(X_{je} - μ_{X})^{2} - V une r (X)]}

$\beta_{(i)}(\zeta)\approx \frac{Cov(X,Y)-\zeta\left[(x_{i}-\mu_x)(y_{i}-\mu_y)-Cov(X,Y)\right]}{Var(X)-\zeta\left[(x_{i}-\mu_x)^2-Var(X)\right]}$

Nous pouvons maintenant utiliser la série Taylor:

β_{(je)} (ζ) \approx β_{(je)} (0) + ζ {[\frac{\partial β_{(je)} (ζ)}{\partial ζ}]}_{ζ = 0}

$\beta_{(i)}(\zeta)\approx \beta_{(i)}(0)+\zeta\left[\frac{\partial \beta_{(i)}(\zeta)}{\partial \zeta}\right]_{\zeta=0}$

Simplifier cela donne:

β_{(je)} (ζ) \approx β - ζ [\frac{(X_{je} - μ_{X}) (y_{je} - μ_{y})}{V une r (X)} - β \frac{(X_{je} - μ_{X})^{2}}{V une r (X)}]

$\beta_{(i)}(\zeta)\approx \beta-\zeta\left[\frac{(x_{i}-\mu_x)(y_{i}-\mu_y)}{Var(X)}-\beta\frac{(x_{i}-\mu_x)^2}{Var(X)}\right]$

$\mu_y$ $\mu_x$ $var(X)$ $\zeta=\frac{1}{n-1}$

β_{(i)} \approx β - \frac{x_{i} - \bar{x}}{n - 1} [\frac{y_{i} - \bar{y}}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}} - β \frac{x_{i} - \bar{x}}{\frac{1}{n} \sum_{j = 1}^{n} (x_{j} - \bar{x})^{2}}]

$\beta_{(i)}\approx \beta-\frac{x_{i}-\overline{x}}{n-1}\left[\frac{y_{i}-\overline{y}}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}-\beta\frac{x_{i}-\overline{x}}{\frac{1}{n}\sum_{j=1}^{n}(x_{j}-\overline{x})^2}\right]$

$\tilde{x}=\frac{x-\overline{x}}{s_{x}}$

β_{(i)} \approx β - \frac{\tilde{x_{i}}}{n - 1} [\tilde{y_{i}} \frac{s_{y}}{s_{x}} - \tilde{x_{i}} β]

$\beta_{(i)}\approx \beta-\frac{\tilde{x_{i}}}{n-1}\left[\tilde{y_{i}}\frac{s_y}{s_x}-\tilde{x_{i}}\beta\right]$

— probabilitéislogique
source

Donc, l'histoire concerne l'influence d'un point de données supplémentaire? Je suis plus habitué à la réponse impulsionnelle pour les données de séries chronologiques, dans un contexte statistique, toute influence serait décrite par un effet marginal ou (meilleur choix) un coefficient bêta issu d'une régression standardisée. Eh bien, j'ai vraiment besoin de plus de contexte pour juger la question et la réponse, mais celle-ci est sympa, je pense (+1 pas encore mais en attente).

— Dmitrij Celov

@dmitrij - C'est ce qui était implicite (ou ce que j'ai déduit) du lien - il s'agit des propriétés de robustesse d'une statistique. Les fonctions d'influence sont légèrement plus générales que 1 point de données - vous pouvez redéfinir la fonction delta pour en faire la somme (autant d'observations). Je dirais que c'est un "Jacknife pas cher" dans une certaine mesure - parce que vous n'avez pas besoin de réinstaller le modèle.

— Probabilislogic

10

Voici une façon super générale de parler des fonctions d'influence d'une régression. Je vais d'abord aborder une façon de présenter les fonctions d'influence:

$F$ $\Sigma$ $F_\epsilon(x)$

F_{ϵ} (X) = (1 - ϵ) F + ϵ δ_{X}

$F_\epsilon(x)=(1-\epsilon)F+\epsilon\delta_x$

δ_{x}

$\delta_x$

Σ

$\Sigma$

{x}

$\{x\}$

Σ

$\Sigma$

À partir de cela, nous pouvons définir la fonction d'influence assez facilement:

$\hat{\theta}$ $F$ $\psi_i:\mathcal{X}\to\Gamma$

ψ_{\hat{θ}, F} (X) = lim_{ϵ \to 0} \frac{\hat{θ} (F_{ϵ} (X)) - \hat{θ} (F)}{ϵ}

$\begin{equation} \psi_{\hat{\theta},F}(x)=\lim\limits_{\epsilon\to 0}\dfrac{\hat{\theta}(F_\epsilon(x))-\hat{\theta}(F)}{\epsilon} \end{equation}$

$\hat\theta$ $F$ $\delta_x$

L'estimation OLS est une solution au problème:

\hat{θ} = \arg min_{θ} E [(Oui - X θ)^{T} (Oui - X θ)]

$\hat\theta=\arg\min_\theta E[(Y-X\theta)^T(Y-X\theta)]$

$(x,y)$

{\hat{θ}}_{ϵ} = \arg min_{θ} (1 - ϵ) E [(Oui - X θ)^{T} (Oui - X θ)] + ϵ (y - X θ)^{T} (y - X θ)

$\hat\theta_\epsilon = \arg\min_\theta (1-\epsilon)E[(Y-X\theta)^T(Y-X\theta)]+\epsilon (y-x\theta)^T(y-x\theta)$

Prendre des conditions de première commande:

{(1 - ϵ) E [X^{T} X] + ϵ X^{T} X} {\hat{θ}}_{ϵ} = (1 - ϵ) E [X^{T} Oui] + ϵ X^{T} y

$\left\{(1-\epsilon)E[X^TX]+\epsilon x^Tx\right\}\hat\theta_\epsilon = (1-\epsilon)E[X^TY]+\epsilon x^Ty$

Puisque la fonction d'influence n'est qu'un dérivé de Gateaux, nous pouvons maintenant dire:

- (E [X^{T} X] + x^{T} x) {\hat{θ}}_{ϵ} + E [X^{T} X] ψ_{θ} (x, y) = - E [X^{T} Y] + x^{T} y

$-(E[X^TX]+x^Tx)\hat\theta_\epsilon + E[X^TX]\psi_{\theta}(x,y) = -E[X^TY] + x^Ty$

$\epsilon=0$ $\hat\theta_\epsilon=\hat\theta=E[X^TX]^{-1}E[X^TY]$

ψ_{θ} (x, y) = E [X^{T} X]^{- 1} x^{T} (y - x θ)

$\psi_{\theta}(x,y)=E[X^TX]^{-1}x^T(y-x\theta)$

L'échantillon fini de cette fonction d'influence est:

ψ_{θ} (x, y) = {(\frac{1}{N} \sum_{i} X_{i}^{T} X_{i})}^{- 1} x^{T} (y - x θ)

$\psi_{\theta}(x,y)=\left(\dfrac{1}{N}\sum_i X_i^TX_i\right)^{-1}x^T(y-x\theta)$

En général, je trouve ce cadre (travailler avec des fonctions d'influence comme dérivées de Gateaux) plus facile à gérer.

— jayk
source