Oracle Inequality: en termes de base

Je suis en train de parcourir un document qui utilise l'inégalité oracle pour prouver quelque chose mais je suis incapable de comprendre ce qu'il essaie même de faire. Lorsque j'ai recherché en ligne «Oracle Inequality», certaines sources m'ont dirigé vers l'article «Candes, Emmanuel J. "qui peut être trouvé ici https://statweb.stanford.edu/~candes/papers/NonlinearEstimation.pdf . Mais ce livre me semble trop lourd et je pense qu'il me manque quelques prérequis.

Ma question est la suivante: comment expliqueriez-vous ce qu'est une inégalité Oracle à un majeur non mathématique (inclut les ingénieurs)? Deuxièmement, comment recommanderiez-vous qu'ils abordent les conditions préalables / sujets avant d'essayer d'apprendre quelque chose comme le livre mentionné ci-dessus.

Je recommanderais fortement à quelqu'un qui a une compréhension concrète et une bonne expérience des statistiques de grande dimension de répondre à cette question.

— Wolcott
source

Est-ce que toute personne ayant plus de 1k de réputation peut offrir une prime sur cette question. Cela aiderait vraiment. Je ne pense pas que les utilisateurs généraux du CV connaissent ce concept, car la plupart des utilisateurs utilisent des statistiques pour l'analyse des données et non pas une analyse théorique, bien qu'en tant que communauté entièrement basée sur les statistiques, je pense qu'il doit y avoir quelqu'un qui pourrait répondre adéquatement à cela. Je crois que la question n'a pas reçu suffisamment d'attention.

— Wolcott

J'avais pensé à la même question

— jeza

La "définition" fournie à la p.22 du lien "Une inégalité oracle relie la performance d'un estimateur réel à celle d'un estimateur idéal qui s'appuie sur des informations parfaites fournies par un oracle et qui ne sont pas disponibles dans la pratique". Cela ne vous transmet-il pas l'essence de la définition?

— Mark L. Stone

@Mark L. Stone pour moi, ce n'est pas le cas

— jeza

Pas même lorsque vous regardez l'exemple et la discussion fournis dans les quelques phrases précédentes, c'est-à-dire la déclaration et la discussion du théorème 4.1, comme exemple d'une inégalité d'oracle? En termes simples: Gee, nous ne connaissons pas la valeur optimale (fournie par un oracle) du facteur de retrait que nous devrions utiliser. Mais sachant que la valeur optimale du facteur de retrait pourrait améliorer le MSE de pas plus de 2 par rapport à l'absence du facteur de retrait optimal de l'oracle.

— Mark L. Stone

Je vais essayer de l'expliquer en cas linéaire. Considérons le modèle linéaire Lorsque (nombre de variables indépendantes inférieures ou égales au nombre d'observations) et que la matrice de conception a un rang complet, l'estimateur le moins carré de est et l'erreur de prédiction est dont on peut déduire Cela signifie que chaque paramètre est estimé avec une précision au carréAinsi, votre précision globale au carré est

Y_{i} = \sum_{j = 1}^{p} β_{j} X_{i}^{(j)} + ϵ_{i}, i = 1, . . ., n .

$Y_i=\sum_{j=1}^{p} \beta_jX_{i}^{(j)}+\epsilon_i, i=1,...,n.$

p \leq n

$p \leq n$

b

$b$

\hat{b} = (X^{T} X)^{- 1} X^{T} Y

$\hat{b}=(X^TX)^{-1}X^TY$

\frac{‖ X (\hat{b} - β^{0}) ‖_{2}^{2}}{σ^{2}}

$\dfrac{\| X(\hat{b}-\beta^0) \|_2^2}{\sigma^2}$

\frac{E ‖ X (\hat{b} - β^{0}) ‖_{2}^{2}}{n} = \frac{σ^{2}}{n} p .

$\dfrac{ \mathbb{E} \| X(\hat{b}-\beta^0) \|_2^2}{n}=\dfrac{\sigma^2}{n}p.$

β_{j}^{0}

$\beta_j^0$

σ^{2} / n, j = 1, . . ., p .

$\sigma^2/n, j=1,...,p.$

(σ^{2} / n) p .

$(\sigma^2/n)p.$

Et si le nombre d'observations est inférieur au nombre de variables indépendantes ? Nous «croyons» que toutes nos variables indépendantes ne jouent pas un rôle dans l'explication de , donc seules quelques-unes, disons , sont non nulles. Si nous savions quelles variables sont non nulles, nous pourrions négliger toutes les autres variables et par l'argument ci-dessus, la précision quadratique globale serait $(p>n)$ $Y$ $k$ $(\sigma^2/n)k.$

Parce que l'ensemble des variables non nulles est inconnu, nous avons besoin d'une pénalité de régularisation (par exemple ) avec le paramètre de régularisation (qui contrôle le nombre de variables). Maintenant, vous voulez obtenir des résultats similaires à ceux mentionnés ci-dessus, vous voulez estimer la précision au carré. Le problème est que votre estimateur optimal dépend maintenant de . Mais le grand fait est qu'avec un choix approprié pour vous pouvez obtenir une limite supérieure d'erreur de prédiction avec une probabilité élevée, c'est-à-dire "l'inégalité oracle" Notez un facteur supplémentaire $l_1$ $\lambda$ $\hat{\beta}$ $\lambda$ $\lambda$

\frac{‖ X (\hat{β} - β^{0}) ‖_{2}^{2}}{n} \leq c o n s t . \frac{σ^{2} \log p}{n} k .

$\dfrac{\| X(\hat{\beta}-\beta^0) \|_2^2}{n} \leq const.\dfrac{\sigma^2\log p}{n}k.$

\log p

$\log p$ , qui est le prix pour ne pas connaître un ensemble de variables non nulles. " " ne dépend que de ou .

c o n s t .

$const.$

p

$p$

n

$n$

— Dato Gogolashvili
source

À strictement parler, nous n'avons pas besoin que le nombre d'observations soit inférieur au nombre de variables indépendantes pour que toute la partie suivante soit correcte.

— jbowman

Pouvez-vous expliquer comment est obtenue l'équation d'espérance (avant-dernière équation) et l'inégalité (dernière équation)?

— user13985

\frac{‖ X (\hat{b} - β^{0}) ‖_{2}^{2}}{σ^{2}}

$\dfrac{\| X(\hat{b}-\beta^0) \|_2^2}{\sigma^2}$ a la distribution chi carré avec p degrés de liberté donc son espérance est . La dernière inégalité est une inégalité oracle. La preuve n'est pas si banale, je peux recommander ce livre: Statistiques pour les données à haute dimension: méthodes, théorie et applications, chapitre 6.

(σ^{2} / n) p

$(\sigma^2/n)p$

— Dato Gogolashvili