(Déplacé des commentaires vers une réponse demandée par @Greenparker)
Partie 1)
Le terme provient de la concentration de mesure (gaussienne). En particulier, si vous avez variables aléatoires gaussiennes IID [F1], leur maximum est de l'ordre de avec une forte probabilité. pσ √Journalp----√pσJournalp----√
Le facteur vient simplement du fait que vous regardez l'erreur de prédiction moyenne - c'est-à-dire qu'il correspond au de l'autre côté - si vous regardez l'erreur totale, elle ne serait pas là. n - 1n- 1n- 1
Partie 2)
Essentiellement, vous devez contrôler deux forces:
- i) les bonnes propriétés d'avoir plus de données (nous voulons donc que soit grand);n
- ii) les difficultés ont plus de caractéristiques (non pertinentes) (nous voulons donc que soit petit).p
Dans les statistiques classiques, nous fixons généralement et laissons aller à l'infini: ce régime n'est pas super utile pour la théorie des hautes dimensions car il est (asymptotiquement) dans le régime des basses dimensions par construction .npn
Alternativement, nous pourrions laisser aller à l'infini et rester fixe, mais notre erreur explose alors que le problème devient essentiellement impossible. Selon le problème, l'erreur peut aller à l'infini ou s'arrêter à une limite supérieure naturelle ( par exemple , erreur de classification erronée à 100%).npn
Étant donné que ces deux cas sont un peu inutiles, nous considérons plutôt que vont tous les deux à l'infini de sorte que notre théorie est à la fois pertinente (reste de grande dimension) sans être apocalyptique (caractéristiques infinies, données finies).n,p
Avoir deux "boutons" est généralement plus difficile que d'avoir un seul bouton, donc nous fixons pour certains f fixes et laissons n aller à l'infini (et donc p va à l'infini indirectement). [F2] Le choix de f détermine le comportement du problème. Pour des raisons dans ma réponse à la partie 1, il s'avère que la "méchanceté" des fonctionnalités supplémentaires ne croît que comme log p tandis que la "bonté" des données supplémentaires croît comme n .p=f(n)fnpflogpn
- Si reste constant (de manière équivalente,pour certains), nous foulons l'eau et le problème est un lavage (l'erreur reste fixe asymptotiquement);logpnCp=f(n)=Θ(Cn)C
- si ( ) nous obtenons asymptotiquement zéro erreur;p=o(Cn)logpn→0p=o(Cn)
- et si ( ), l'erreur finit par aller à l'infini.p=ω(Cn)logpn→∞p = ω (Cn)
Ce dernier régime est parfois appelé "ultra-haute dimension" dans la littérature. Le terme «ultra-haute dimension» n'a pas de définition rigoureuse pour autant que je sache, mais il s'agit officieusement simplement «du régime qui brise le lasso et des estimateurs similaires».
Nous pouvons le démontrer avec une petite étude de simulation dans des conditions assez idéalisées. Ici, nous prenons des conseils théoriques sur le choix optimal de parmi [BRT09] et choisissons .λ = 3 √λλ = 3 log( p ) / n-------√
Considérons d'abord un cas où . Ceci est dans le régime de haute dimension «traitable» décrit ci-dessus et, comme le prédit la théorie, nous voyons l'erreur de prédiction converger vers zéro:p=f(n)=3n
Code à reproduire:
library(glmnet)
library(ggplot2)
# Standard High-Dimensional Asymptotics: log(p) / n -> 0
N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N
ERROR_HD <- data.frame()
for(ix in seq_along(N)){
n <- N[ix]
p <- P[ix]
PMSE <- replicate(20, {
X <- matrix(rnorm(n * p), ncol=p)
beta <- rep(0, p)
beta[1:10] <- runif(10, 2, 3)
y <- X %*% beta + rnorm(n)
g <- glmnet(X, y)
## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009.
## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n}
## is good scaling for controlling prediction error of the lasso
err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
mean(err^2)
})
ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}
ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() +
xlab("Number of Samples (n)") +
ylab("Mean Prediction Error (at observed design points)") +
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") +
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) +
scale_y_log10()
Nous pouvons comparer cela au cas où reste approximativement constant: j'appelle cela le régime ultra-dimensionnel "borderline", mais ce n'est pas un terme standard:logpn
P <- 10 + ceiling(exp(N/120))
Ici, nous voyons que l'erreur de prédiction (en utilisant la même conception que ci-dessus) se stabilise au lieu de continuer à zéro.
Si nous réglons pour croître plus rapidement que , ( par exemple , ), l'erreur de prédiction augmente sans limite. Ces sont ridiculement rapides et conduisent à d'énormes problèmes / problèmes numériques, voici donc un exemple légèrement plus lent, mais toujours UHD:Penen2en2
P <- 10 + ceiling(exp(N^(1.03)/120))
(J'ai utilisé un aléatoire clairsemé pour la vitesse, alors n'essayez pas de comparer directement les chiffres avec les autres graphiques). nom du temps de calcul. L'utilisation d'un exposant plus grand (comme ) rendrait la croissance asymptotique un peu plus claire.Xen1.5
Malgré ce que j'ai dit ci-dessus et comment il peut apparaître, le régime ultra-haute dimension n'est pas vraiment complètement désespéré (bien qu'il soit proche), mais il nécessite des techniques beaucoup plus sophistiquées qu'un simple max de variables aléatoires gaussiennes pour contrôler l'erreur. La nécessité d'utiliser ces techniques complexes est la source ultime de la complexité que vous notez.
Il n'y a aucune raison particulière de penser que devrait grandir "ensemble" de quelque manière que ce soit ( c'est-à - dire qu'il n'y a pas de raison évidente "réelle" de fixer ), mais les mathématiques manquent généralement de langage et d'outils pour discuter limite avec deux "degrés de liberté" donc c'est le mieux qu'on puisse faire (pour l'instant!).p,np=f(n)
Partie 3)
J'ai peur de ne pas connaître de livres dans la littérature statistique qui se concentrent vraiment sur la croissance de vs explicitement. (Il peut y avoir quelque chose dans la littérature sur la détection compressive)logpn
Ma référence préférée actuelle pour ce type de théorie est les chapitres 10 et 11 de Statistical Learning with Sparsity [F3], mais elle adopte généralement l'approche consistant à considérer fixe et à donner des propriétés d'échantillons finis (non asymptotiques) pour obtenir une «bonne " résultat. Il s'agit en fait d'une approche plus puissante - une fois que vous avez le résultat pour tout , il est facile de considérer les asymptotiques - mais ces résultats sont généralement plus difficiles à calculer, donc nous ne les avons actuellement que pour les estimateurs de type lasso pour autant que je savoir.n,pn,p
Si vous êtes à l'aise et désireux de vous plonger dans la littérature de recherche, je regarderais les travaux de Jianqing Fan et Jinchi Lv, qui ont fait la plupart des travaux de base sur les problèmes de très haute dimension. ("Screening" est un bon terme pour rechercher)
[F1] En fait, n'importe quelle variable aléatoire sous- russe , mais cela n'ajoute pas grand-chose à cette discussion.
[F2] Nous pourrions également définir la «vraie» densité de en fonction de ( ), mais cela ne change pas trop les choses.sns = g( n )
[F3] T. Hastie, R. Tibshirani et M. Wainwright. Apprentissage statistique avec parcimonie. Monographies sur les statistiques et la probabilité appliquée 143. CRC Press, 2015. Disponible en téléchargement gratuit sur https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
[BRT] Peter J. Bickel, Ya'acov Ritov et Alexandre B. Tsybakov. "Analyse simultanée du sélecteur Lasso et Dantzig." Annals of Statistics 37 (4), p. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620