Comme je l'ai écrit dans les commentaires, cette question me semble trop large, mais je vais tenter d'y répondre. Afin de fixer certaines limites, je commencerai par un peu de calcul qui sous-tend la plupart de ML, puis je me concentrerai sur les résultats récents pour DL.
Le compromis biais-variance est mentionné dans d'innombrables livres, cours, MOOC, blogs, tweets, etc. sur ML, nous ne pouvons donc pas commencer sans le mentionner:
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
La preuve ici: https://web.stanford.edu/~hastie/ElemStatLearn/
Le théorème de Gauss-Markov (oui, la régression linéaire restera une partie importante de Machine Learning, quoi qu'il en soit: résolvez-le): clarifie que, lorsque le modèle linéaire est vrai et que certaines hypothèses sur le terme d'erreur sont valides, le MLS a le minimum erreur quadratique moyenne (qui , dans l'expression ci - dessus est juste ) que parmi les impartiales estimateurs linéaires du modèle linéaire. Ainsi, il pourrait bien y avoir des estimateurs linéaires avec biais (ou des estimateurs non linéaires) qui ont une meilleure erreur quadratique moyenne, et donc une meilleure erreur de prédiction attendue, que la méthode MCO. Et cela ouvre la voie à tout l’arsenal de la régularisation (régression d’arête, LASSO, décroissance du poids, etc.) qui est un bourreau de travail de ML. Une preuve est donnée ici (et dans d'innombrables autres livres):
Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
Le théorème de James-Stein est probablement plus pertinent pour l'explosion des approches de régularisation, comme l'a souligné Carlos Cinelli dans les commentaires, et certainement plus amusant à apprendre . Considérons indépendant, même variance mais pas les mêmes variables aléatoires moyennes gaussiennes:n
Xi|μi∼N(θi,σ2),i=1,…,n
autrement dit, nous avons un vecteur aléatoire gaussien à composantes . Nous avons un exemple de de et nous voulons estimer . L'estimateur MLE (et également UMVUE) est évidemment . Considérons l'estimateur de James-Steinn−X∼N(θ,σ2I)xXθθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
Clairement, si , réduit l'estimation MLE à zéro. Le théorème de James-Stein indique que pour , domine strictement , c'est-à-dire qu'il a un MSE plus bas . Pheraps étonnamment, même si nous réduisons vers une autre constante , domine toujours . Depuis le(n−2)σ2≤||x||2θ^JS n≥4θ^JS θ^MLE∀ θc≠0θ^JSθ^MLEXisont indépendants, il peut sembler étrange qu’en essayant d’estimer la taille de trois personnes indépendantes, y compris un échantillon du nombre de pommes produites en Espagne, on puisse améliorer notre estimation en moyenne . Le point clé ici est "en moyenne": l’erreur quadratique moyenne pour l’estimation simultanée de toutes les composantes du vecteur paramètre est plus petite, mais l’erreur quadratique pour une ou plusieurs composantes peut bien être plus grande, et il est souvent le cas quand vous avez des observations "extrêmes".
Découvrir que MLE, qui était en fait l’estimateur «optimal» pour le cas de l’estimation univariée, était détrôné pour une estimation multivariée, était un choc à l’époque et suscitait un vif intérêt pour le rétrécissement, mieux connu sous le nom de régularisation dans le langage parlé. On peut noter certaines similitudes avec les modèles mixtes et le concept de "force d’emprunt": il existe effectivement un lien, comme discuté ici.
Vue unifiée sur le retrait: quelle relation existe-t-il entre le paradoxe de Stein, la régression de la crête et les effets aléatoires dans des modèles mixtes?
Référence: James, W., Stein, C., Estimation avec perte quadratique . Actes du quatrième symposium de Berkeley sur les statistiques mathématiques et les probabilités, volume 1: Contributions à la théorie de la statistique, 361–379, Presses de l'Université de Californie, Berkeley, Californie, 1961
L’analyse en composantes principales est la clé de l’important sujet de la réduction des dimensions et elle est basée sur la décomposition en valeurs singulières : pour chaque matrice réelle (bien que le théorème se généralise facilement à des matrices complexes), nous pouvons écrireN×pX
X=UDVT
où de taille est orthogonal, est une matrice diagonale de avec des éléments diagonaux non négatifs et de taille est de nouveau orthogonal. Pour des preuves et des algorithmes permettant de le calculer, voir: Golub, G., et Van Loan, C. (1983), Calculs matriciels , John Hopkins University Press, Baltimore.UN×pDp×pUp×p
Le théorème de Mercer est la pierre de fondation pour un grand nombre de méthodes différentes ML: splines plaque mince, les machines à vecteurs, l'estimation krigeage d'un processus aléatoire gaussienne, etc. En fait, est l' un des deux théorèmes derrière la soi-disant astuce du noyau . Soit soit une fonction continue symétrique ou un noyau. si est semi-défini positif, alors il admet une base orthorormale de fonctions propres correspondant à des valeurs propres non négatives:K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
L'importance de ce théorème pour la théorie du ML est attestée par le nombre de références qu'il obtient dans des textes célèbres, comme par exemple le texte de Rasmussen & Williams sur les processus gaussiens .
Référence: J. Mercer, Fonctions de type positif et négatif et leur lien avec la théorie des équations intégrales. Transactions philosophiques de la Royal Society of London. Série A, contenant des papiers de caractère mathématique ou physique, 209: 415-446, 1909
Il existe également une présentation plus simple dans Konrad Jörgens, Opérateurs intégraux linéaires , Pitman, Boston, 1982.
L'autre théorème qui, avec le théorème de Mercer, établit le fondement théorique de l'astuce du noyau, est le théorème du représentant . Supposons que vous ayez un espace exemple et un noyau semi-défini positif symétrique . Aussi laissez être les RKHS associés à . Enfin, prenons soit un échantillon d'apprentissage. Le théorème dit que parmi toutes les fonctions , qui admettent toutes une représentation infinie en termes de fonctions propres deXK:X×X→RHKKS={xi,yi}ni=1f∈HKKdu fait du théorème de Mercer, celui qui minimise le risque régularisé a toujours une représentation finie dans la base formée par le noyau évalué aux points d'apprentissage, c'est-à-diren
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(le théorème est la dernière égalité). Références: Wahba, G. 1990, Modèles splines pour données d'observation , SIAM, Philadelphie.
Le théorème d'approximation universel a déjà été cité par l'utilisateur Tobias Windisch et est beaucoup moins pertinent pour le Machine Learning que pour l'analyse fonctionnelle, même si cela ne semble pas tout à fait à première vue. Le problème est que le théorème dit seulement qu'un tel réseau existe, mais:
- cela ne donne aucune corrélation entre la taille de la couche cachée et une mesure de la complexité de la fonction cible , comme par exemple Variation totale. Si et le requis pour une erreur corrigée augmenté de façon exponentielle avec , alors la couche neurale cachée est unique les réseaux seraient inutiles.Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- il ne dit pas si le réseau est apprenable . En d'autres termes, supposons que, étant donné et , nous savons qu'une taille NN approchera avec la tolérance requise dans l'hypercube. Ensuite, en utilisant des ensembles d’entraînement de taille et une procédure d’apprentissage telle que, par exemple, le support arrière, avons-nous la garantie qu’en augmentant nous pouvons récupérer ?F(x)fϵNfMMF
- enfin, et pire que tout, cela ne dit rien sur l'erreur de prédiction des réseaux de neurones. Ce que nous intéresse vraiment est une estimation de l'erreur de prédiction, au moins en moyenne sur tous les ensembles de formation de taille . Le théorème n'aide pas à cet égard.M
La version de Hornik de ce théorème pose un problème moins important, car il n’est pas valable pour les fonctions d’activation de ReLU. Cependant, Bartlett a depuis fait ses preuves pour une version étendue qui couvre cette lacune.
Jusqu'à présent, je suppose que tous les théorèmes que je considérais étaient bien connus de tous. Alors maintenant, passons aux choses amusantes :-) Voyons quelques théorèmes de Deep Learning :
Hypothèses:
- le réseau neuronal profond (pour fixe , est la fonction qui associe les entrées du réseau neuronal à ses sorties) et la perte de régularisation sont toutes deux des sommes de positivement fonctions homogènes du même degréΦ(X,W)WΦW(X)Θ(W)
- la fonction de perte est convexe et une fois différentiable en , dans un ensemble compactL(Y,Φ(X,W)XS
Ensuite:
- tout minimum local pour tel qu'un sous-réseau de ait un poids nul, est un minimum global ( théorème 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- au-dessus d'une taille de réseau critique, la descente locale convergera toujours vers un minimum global à partir de toute initialisation ( théorème 2 ).
C’est très intéressant: les CNN constitués uniquement de couches convolutives, ReLU, max-pooling, ReLU entièrement connectée et couches linéaires sont des fonctions positivement homogènes , alors que si nous incluons des fonctions d’activation sigmoïde, ce n’est plus vrai, ce qui peut expliquer en partie la supériorité. performances dans certaines applications du pool ReLU + max par rapport à sigmoids. De plus, les théorèmes ne valent que si aussi est positivement homogène en du même degré que . Le fait amusant est que la régularisation ou , bien que positivement homogène, n’a pas le même degré de (le degré deΘWΦl1l2ΦΦ, dans le cas simple de CNN mentionné précédemment, augmente avec le nombre de couches). Au lieu de cela, des méthodes de régularisation plus modernes telles que la normalisation par lots et chemin-SGD correspondent à une fonction de régularisation positivement homogène du même degré que , et le décrochage, bien que ne cadrant pas exactement avec ce cadre, présente de fortes similitudes. Cela explique peut-être pourquoi, pour obtenir une grande précision avec CNN, la régularisation de et de ne suffit pas, mais nous devons utiliser toutes sortes d’astuces diaboliques, telles que l’abandon et la normalisation des lots! Autant que je sache, ceci est la chose la plus proche d'une explication de l'efficacité de la normalisation par lots, qui est par ailleurs très obscure, comme l'a correctement noté Al Rahimi dans son exposé.Φl1l2
D'après le théorème 1 , une autre observation est que certaines personnes pourraient expliquer pourquoi ReLU fonctionne bien, même avec le problème des neurones morts . Selon cette intuition, le fait que, pendant l'entraînement, certains neurones ReLU "meurent" (passez à l'activation zéro puis ne récupérez jamais, car pour le gradient de ReLU est nul) est "une caractéristique, pas un bug ", parce que si nous avons atteint un minimum et qu'un sous-réseau complet est mort, il est prouvé que nous avons atteint un minimum global (sous les hypothèses du théorème 1x<0). Il se peut que je manque quelque chose, mais je pense que cette interprétation est farfelue. Tout d’abord, pendant la formation, les ReLU peuvent "mourir" bien avant que nous ayons atteint un minimum local. Deuxièmement, il faut prouver que lorsque les unités ReLU "meurent", elles le font toujours sur un sous-réseau complet: le seul cas où cela est trivialement vrai est lorsque vous n'avez qu'une couche cachée, auquel cas, bien sûr, chaque neurone est un sous-réseau. Mais en général, je serais très prudent de considérer les "neurones morts" comme une bonne chose.
Les références:
B. Haeffele et R. Vidal, Optimalité globale dans la formation au réseau de neurones , Conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes, 2017.
B. Haeffele et R. Vidal. Optimalité globale en factorisation du tenseur, apprentissage en profondeur et au-delà , arXiv, abs / 1506.07540, 2015.
La classification des images nécessite l'apprentissage de représentations invariantes (ou du moins robustes, c'est-à-dire très peu sensibles) à diverses transformations telles que la position, la pose, le point de vue, l'éclairage, l'expression, etc. couramment présentes dans les images naturelles, mais ne contenant pas d'informations. pour la tâche de classification. Même chose pour la reconnaissance vocale: changements de hauteur, de volume, de cadence, d’accent. etc. ne devrait pas entraîner de modification de la classification du mot. Les opérations telles que la convolution, la mise en pool maximale, la mise en pool moyenne, etc., utilisées dans les réseaux CNN, ont exactement cet objectif. Nous nous attendons donc intuitivement à ce qu'elles fonctionnent pour ces applications. Mais avons-nous des théorèmes pour soutenir cette intuition? Il existe un théorème d'invariance de traduction verticale, qui, malgré son nom, n’a rien à voir avec la translation verticale, mais il s’agit essentiellement d’un résultat indiquant que les fonctionnalités apprises dans les couches suivantes deviennent de plus en plus invariantes à mesure que le nombre de couches augmente. Ceci est opposé à un ancien théorème d'invariance de traduction horizontale qui est valable pour les réseaux de diffusion, mais pas pour les CNN. Le théorème est cependant très technique:
- supposez que (votre image d'entrée) est carré-intégrablef
- supposons que votre filtre bascule avec l'opérateur de traduction , qui mappe l'image d'entrée sur une copie traduite d'elle-même . Un noyau de convolution appris (filtre) satisfait cette hypothèse.TtfTtf
- supposons que tous les filtres, les non-linéarités et la mise en commun de votre réseau satisfont à une condition d'admissibilité dite faible , qui est fondamentalement une sorte de conditions de régularité et de limitation faibles. Ces conditions sont satisfaites par le noyau de convolution appris (tant qu'une opération de normalisation est effectuée sur chaque couche), ReLU, sigmoïde, tanh, etc., par non-linéarités et par pooling moyen, mais pas par pooling maximal. Donc, il couvre certaines architectures CNN du monde réel (pas toutes).
- Supposons enfin que chaque couche a un facteur de regroupement , c'est-à-dire qu'un regroupement est appliqué à chaque couche et élimine efficacement les informations. La condition suffirait également pour une version plus faible du théorème.nSn>1Sn≥1
Indiquez avec la sortie de la couche du CNN, lorsque l’entrée est . Enfin:Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(les barres triples ne sont pas une erreur), ce qui signifie que chaque couche apprend des caractéristiques qui deviennent de plus en plus invariantes, et dans la limite d’un réseau infiniment profond, nous avons une architecture parfaitement invariante. Puisque les CNN ont un nombre fini de couches, ils ne sont pas parfaitement invariants à la traduction, ce qui est bien connu des praticiens.
Référence: T. Wiatowski et H. Bolcskei, Théorie mathématique des réseaux de neurones convolutionnels profonds pour l'extraction de caractéristiques , arXiv: 1512.06293v3 .
Pour conclure, de nombreuses limites pour l'erreur de généralisation d'un réseau de neurones profonds basé sur sa dimension Vapnik-Chervonkensis ou sur la complexité de Rademacher augmentent avec le nombre de paramètres (certains même de manière exponentielle), ce qui signifie qu'ils ne peuvent pas expliquer pourquoi les DNN fonctionnent si bien en pratique, même lorsque le nombre de paramètres est considérablement plus grand que le nombre d'échantillons d'apprentissage. En fait, la théorie de la CV n'est pas très utile dans l'apprentissage en profondeur.
Inversement, certains résultats de l'année dernière ont lié l'erreur de généralisation d'un classifieur DNN à une quantité indépendante de la profondeur et de la taille du réseau de neurones, mais ne dépendant que de la structure de l'ensemble d'apprentissage et de l'espace de saisie. Sous de jolies hypothèses techniques sur la procédure d'apprentissage, sur l'ensemble de formation et sur l'espace d'entrée, mais avec très peu d'hypothèses sur le DNN (en particulier, les CNN sont entièrement couvertes), puis avec une probabilité d'au moins , nous avons:1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
où:
- GE est l'erreur de généralisation, définie comme étant la différence entre la perte attendue (la perte moyenne du classifieur appris sur tous les points de test possibles) et la perte empirique (juste la bonne erreur du jeu d'apprentissage)
- Ny est le nombre de classes
- m est la taille de l'ensemble d'entraînement
- Nγ est le nombre couvrant des données, une quantité liée à la structure de l'espace de saisie et à la séparation minimale entre les points de différentes classes de l'ensemble d'apprentissage. Référence:
J. Sokolic, R. Giryes, G. Sapiro et M. Rodrigues. Erreur de généralisation des classificateurs invariants . Dans AISTATS, 2017