Qu'est-ce qui fait qu'un modèle nécessite un faible taux d'apprentissage?

J'ai réfléchi à cela pendant un certain temps sans développer une intuition pour les mathématiques derrière la cause de cela.

Alors, qu'est-ce qui fait qu'un modèle a besoin d'un faible taux d'apprentissage?

machine-learning hyper-parameters

— JohnAllen
source

Je me suis également posé des questions à ce sujet et je suis curieux de savoir pourquoi les RNN ont un taux d'apprentissage plus faible que les CNN. D'après ce que je sais, la complexité du modèle (profondeur) et / ou d'énormes ensembles de données nécessitent un hyperparamètre plus fin pour le lr.

— Justin

La descente de gradient est une méthode pour trouver le paramètre optimal de l'hypothèse ou minimiser la fonction de coût.

où alpha est le taux d'apprentissage

Si le taux d'apprentissage est élevé, il peut dépasser le minimum et ne pas minimiser la fonction de coût.

entraînent donc une perte plus élevée.

Étant donné que la descente en gradient ne peut trouver que le minimum local, le taux d'apprentissage inférieur peut entraîner de mauvaises performances. Pour ce faire, il est préférable de commencer par la valeur aléatoire de l'hyperparamètre qui peut augmenter le temps de formation du modèle mais il existe des méthodes avancées telles que la descente de gradient adaptative pouvant gérer le temps de formation.

Il existe de nombreux optimiseurs pour la même tâche, mais aucun optimiseur n'est parfait. Cela dépend de certains facteurs

taille des données d'entraînement: à mesure que la taille des données d'entraînement augmente, le temps de formation du modèle augmente. Si vous souhaitez utiliser moins de temps de modèle de formation, vous pouvez choisir un taux d'apprentissage plus élevé, mais cela peut entraîner de mauvaises performances.
L'optimiseur (descente de gradient) sera ralenti chaque fois que le gradient est petit, alors il vaut mieux aller avec un taux d'apprentissage plus élevé.

PS. Il vaut toujours mieux aller avec différents tours de descente en pente

— Posi2
source

C'est un bon début, car il montre la différence entre les taux d'apprentissage faibles et élevés en général. Vous devez également expliquer pourquoi le bon taux d'apprentissage varie en fonction de la tâche - et le PO demandait spécifiquement pourquoi certains problèmes nécessitent un taux d'apprentissage inférieur à d'autres

— Neil Slater

C'est un bon point. Je l'ai édité. Puisqu'il n'y a pas de problème spécifique, mentionnons que j'y vais avec un général.

— Posi2

Je pense toujours que cela ne répond pas à la question. L'OP ne parle pas de l'optimiseur ou des données, il parle du modèle. Comment le modèle (son architecture, nombre de paramètres, etc.) affecte-t-il le taux d'apprentissage? Je pense que c'est la vraie question à laquelle vous ne répondez pas. Tout le reste n'a rien à voir avec la question et ne fera que confondre les lecteurs qui ne peuvent pas faire la distinction entre ces concepts.

— nbro

Merci pour les commentaires. Indépendamment de l'architecture du modèle, le nombre de paramètres, la taille des données et la plage de données (la solution utilise des données normalisées) est élevé, ce qui entraîne un temps de formation plus élevé.Par conséquent, selon lui, nous devons modifier le taux d'apprentissage. Cela s'applique au modèle tel que la régression linéaire, la régression logistique, SVM, etc. car ils utilisent GD pour l'optimisation. Toute réponse est toujours la bienvenue :)

— Posi2

Une preuve qui évalue votre demande "indépendamment de l'architecture du modèle"? Cette réponse ne répond toujours pas à la question OP. Vous répondez à la question "comment le taux d'apprentissage change-t-il en général, en fonction du paramètre d'apprentissage automatique" (et votre réponse n'est pas exhaustive, bien sûr, car elle ne mentionne pas "comment le taux d'apprentissage change selon le modèle ", c'est-à-dire la question réelle).

— nbro