Régression haute dimension: pourquoi spécial?

J'essaie de lire sur la recherche dans le domaine de la régression à haute dimension; lorsque est supérieur à , c'est-à-dire . Il semble que le terme apparaisse souvent en termes de taux de convergence pour les estimateurs de régression. $p$ $n$ $p >> n$ $\log p/n$

Par exemple, ici , l'équation (17) dit que l'ajustement au lasso, satisfait $\hat{\beta}$

\frac{1}{n} ‖ X \hat{β} - X β ‖_{2}^{2} = O_{P} (σ \sqrt{\frac{\log p}{n}} ‖ β ‖_{1}) .

$\dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 = O_P \left(\sigma \sqrt{\dfrac{\log p}{n} } \|\beta\|_1\right)\,.$

Habituellement, cela implique également que $\log p$ doit être inférieur à $n$ .

Y a-t-il une intuition quant à la raison pour laquelle ce rapport $\log p/n$ est si important?
De plus, il semble d'après la littérature que le problème de régression à haute dimension se complique lorsque $\log p \geq n$ . Pourquoi en est-il ainsi?
Existe-t-il une bonne référence qui discute des problèmes de vitesse de croissance de $p$ et $n$ par rapport à l'autre?

— Greenparker
source

1. Le terme

\sqrt{\log p}

$\sqrt{\log p}$ provient de la concentration de mesure (gaussienne). En particulier, si vous avez

p

$p$ variables aléatoires gaussiennes IID, leur maximum est de l'ordre de

σ \sqrt{\log p}

$\sigma \sqrt{\log p}$ avec une forte probabilité. Le facteur

n^{- 1}

$n^{-1}$ vient simplement du fait que vous regardez l'erreur de prédiction moyenne - c'est-à-dire qu'il correspond au

n^{- 1}

$n^{-1}$ de l'autre côté - si vous regardez l'erreur totale, elle ne serait pas là.

— mweylandt

2. Essentiellement, vous devez contrôler deux forces: i) les bonnes propriétés d'avoir plus de données (nous voulons donc que soit grand); ii) les difficultés ont plus de caractéristiques (non pertinentes) (nous voulons donc que soit petit). Dans les statistiques classiques, nous fixons généralement et laissons aller à l'infini: ce régime n'est pas super utile pour la théorie des hautes dimensions car il est dans le régime des basses dimensions par construction. Alternativement, nous pourrions laisser aller à l'infini et rester fixe, mais alors notre erreur explose et va à l'infini.

n

$n$

p

$p$

p

$p$

n

$n$

p

$p$

n

$n$

— mweylandt

Par conséquent, nous devons considérer que vont tous les deux à l'infini afin que notre théorie soit à la fois pertinente (reste de grande dimension) sans être apocalyptique (caractéristiques infinies, données finies). Avoir deux "boutons" est généralement plus difficile que d'avoir un seul bouton, donc nous fixons pour certains et laissons aller à l'infini (et donc indirectement). Le choix de détermine le comportement du problème. Pour des raisons dans ma réponse à Q1, il s'avère que la "bonté" des fonctionnalités supplémentaires ne croît que comme tandis que la "bonté" des données supplémentaires croît comme .

n, p

$n, p$

p = f (n)

$p = f(n)$

f

$f$

n

$n$

p

$p$

f

$f$

\log p

$\log p$

n

$n$

— mweylandt

Par conséquent, si reste constant (de manière équivalente, pour certains ), nous foulons l'eau. Si ( ) nous obtenons asymptotiquement zéro erreur. Et si ( ), l'erreur finit par aller à l'infini. Ce dernier régime est parfois appelé "ultra-haute dimension" dans la littérature. Ce n'est pas désespéré (bien qu'il soit proche), mais cela nécessite des techniques beaucoup plus sophistiquées qu'un simple max de Gaussiens pour contrôler l'erreur. La nécessité d'utiliser ces techniques complexes est la source ultime de la complexité que vous notez.

\log p / n

$\log p / n$

p = f (n) = Θ (C^{n})

$p = f(n) = \Theta(C^n)$

C

$C$

\log p / n \to 0

$\log p / n \to 0$

p = o (C^{n})

$p = o(C^n)$

\log p / n \to \infty

$\log p / n \to \infty$

p = ω (C^{n})

$p = \omega(C^n)$

— mweylandt

@mweylandt Merci, ces commentaires sont vraiment utiles. Pourriez-vous les transformer en une réponse officielle, afin que je puisse les lire de manière plus cohérente et vous voter favorablement?

— Greenparker

(Déplacé des commentaires vers une réponse demandée par @Greenparker)

Partie 1)

Le terme provient de la concentration de mesure (gaussienne). En particulier, si vous avez variables aléatoires gaussiennes IID [F1], leur maximum est de l'ordre de avec une forte probabilité. $\sqrt{\log p}$ $p$ $\sigma\sqrt{\log p}$

Le facteur vient simplement du fait que vous regardez l'erreur de prédiction moyenne - c'est-à-dire qu'il correspond au de l'autre côté - si vous regardez l'erreur totale, elle ne serait pas là. $n^{-1}$ $n^{-1}$

Partie 2)

Essentiellement, vous devez contrôler deux forces:

i) les bonnes propriétés d'avoir plus de données (nous voulons donc que soit grand); $n$
ii) les difficultés ont plus de caractéristiques (non pertinentes) (nous voulons donc que soit petit). $p$

Dans les statistiques classiques, nous fixons généralement et laissons aller à l'infini: ce régime n'est pas super utile pour la théorie des hautes dimensions car il est (asymptotiquement) dans le régime des basses dimensions par construction . $p$ $n$

Alternativement, nous pourrions laisser aller à l'infini et rester fixe, mais notre erreur explose alors que le problème devient essentiellement impossible. Selon le problème, l'erreur peut aller à l'infini ou s'arrêter à une limite supérieure naturelle ( par exemple , erreur de classification erronée à 100%). $p$ $n$

Étant donné que ces deux cas sont un peu inutiles, nous considérons plutôt que vont tous les deux à l'infini de sorte que notre théorie est à la fois pertinente (reste de grande dimension) sans être apocalyptique (caractéristiques infinies, données finies). $n, p$

Avoir deux "boutons" est généralement plus difficile que d'avoir un seul bouton, donc nous fixons pour certains fixes et laissons aller à l'infini (et donc va à l'infini indirectement). [F2] Le choix de détermine le comportement du problème. Pour des raisons dans ma réponse à la partie 1, il s'avère que la "méchanceté" des fonctionnalités supplémentaires ne croît que comme tandis que la "bonté" des données supplémentaires croît comme . $p=f(n)$ $f$ $n$ $p$ $f$ $\log p$ $n$

Si reste constant (de manière équivalente,pour certains), nous foulons l'eau et le problème est un lavage (l'erreur reste fixe asymptotiquement); $\frac{\log p}{n}$ $p=f(n)=Θ(C^n)$ $C$
si ( ) nous obtenons asymptotiquement zéro erreur; $\frac{\log p}{n} \to 0$ $p=o(C^n)$
et si ( ), l'erreur finit par aller à l'infini. $\frac{\log p}{n}→\infty$ $p=\omega(C^n)$

Ce dernier régime est parfois appelé "ultra-haute dimension" dans la littérature. Le terme «ultra-haute dimension» n'a pas de définition rigoureuse pour autant que je sache, mais il s'agit officieusement simplement «du régime qui brise le lasso et des estimateurs similaires».

Nous pouvons le démontrer avec une petite étude de simulation dans des conditions assez idéalisées. Ici, nous prenons des conseils théoriques sur le choix optimal de parmi [BRT09] et choisissons . $\lambda$ $\lambda = 3 \sqrt{\log(p)/n}$

Considérons d'abord un cas où . Ceci est dans le régime de haute dimension «traitable» décrit ci-dessus et, comme le prédit la théorie, nous voyons l'erreur de prédiction converger vers zéro: $p = f(n) = 3n$

Code à reproduire:

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

Nous pouvons comparer cela au cas où reste approximativement constant: j'appelle cela le régime ultra-dimensionnel "borderline", mais ce n'est pas un terme standard: $\frac{\log p}{n}$

P <- 10 + ceiling(exp(N/120))

Ici, nous voyons que l'erreur de prédiction (en utilisant la même conception que ci-dessus) se stabilise au lieu de continuer à zéro.

Si nous réglons pour croître plus rapidement que , ( par exemple , ), l'erreur de prédiction augmente sans limite. Ces sont ridiculement rapides et conduisent à d'énormes problèmes / problèmes numériques, voici donc un exemple légèrement plus lent, mais toujours UHD: $P$ $e^n$ $e^{n^2}$ $e^{n^2}$

P <- 10 + ceiling(exp(N^(1.03)/120))

(J'ai utilisé un aléatoire clairsemé pour la vitesse, alors n'essayez pas de comparer directement les chiffres avec les autres graphiques). nom du temps de calcul. L'utilisation d'un exposant plus grand (comme ) rendrait la croissance asymptotique un peu plus claire. $X$ $e^{n^1.5}$

Malgré ce que j'ai dit ci-dessus et comment il peut apparaître, le régime ultra-haute dimension n'est pas vraiment complètement désespéré (bien qu'il soit proche), mais il nécessite des techniques beaucoup plus sophistiquées qu'un simple max de variables aléatoires gaussiennes pour contrôler l'erreur. La nécessité d'utiliser ces techniques complexes est la source ultime de la complexité que vous notez.

Il n'y a aucune raison particulière de penser que devrait grandir "ensemble" de quelque manière que ce soit ( c'est-à - dire qu'il n'y a pas de raison évidente "réelle" de fixer ), mais les mathématiques manquent généralement de langage et d'outils pour discuter limite avec deux "degrés de liberté" donc c'est le mieux qu'on puisse faire (pour l'instant!). $p, n$ $p = f(n)$

Partie 3)

J'ai peur de ne pas connaître de livres dans la littérature statistique qui se concentrent vraiment sur la croissance de vs explicitement. (Il peut y avoir quelque chose dans la littérature sur la détection compressive) $\log p$ $n$

Ma référence préférée actuelle pour ce type de théorie est les chapitres 10 et 11 de Statistical Learning with Sparsity [F3], mais elle adopte généralement l'approche consistant à considérer fixe et à donner des propriétés d'échantillons finis (non asymptotiques) pour obtenir une «bonne " résultat. Il s'agit en fait d'une approche plus puissante - une fois que vous avez le résultat pour tout , il est facile de considérer les asymptotiques - mais ces résultats sont généralement plus difficiles à calculer, donc nous ne les avons actuellement que pour les estimateurs de type lasso pour autant que je savoir. $n, p$ $n, p$

Si vous êtes à l'aise et désireux de vous plonger dans la littérature de recherche, je regarderais les travaux de Jianqing Fan et Jinchi Lv, qui ont fait la plupart des travaux de base sur les problèmes de très haute dimension. ("Screening" est un bon terme pour rechercher)

[F1] En fait, n'importe quelle variable aléatoire sous- russe , mais cela n'ajoute pas grand-chose à cette discussion.

[F2] Nous pourrions également définir la «vraie» densité de en fonction de ( ), mais cela ne change pas trop les choses. $s$ $n$ $s = g(n)$

[F3] T. Hastie, R. Tibshirani et M. Wainwright. Apprentissage statistique avec parcimonie. Monographies sur les statistiques et la probabilité appliquée 143. CRC Press, 2015. Disponible en téléchargement gratuit sur https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf

[BRT] Peter J. Bickel, Ya'acov Ritov et Alexandre B. Tsybakov. "Analyse simultanée du sélecteur Lasso et Dantzig." Annals of Statistics 37 (4), p. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620

— mweylandt
source

(+1) Merci, c'est très utile, et en effet digne de la prime (j'attendrai un peu avant d'attribuer la prime pour maintenir l'intérêt). Une question: pouvez-vous développer davantage sur " reste constant, nous marchons sur l'eau"? Est-il important que cette constante soit supérieure à 1 ou inférieure à 1?

\log p / n

$\log p/n$

— Greenparker

n

$n$