Dans la plupart des situations, plus de données sont généralement meilleures . Le surapprentissage consiste essentiellement à apprendre de fausses corrélations qui se produisent dans vos données d'entraînement, mais pas dans le monde réel. Par exemple, si vous ne considérez que mes collègues, vous pourriez apprendre à associer "nommé Matt" avec "a une barbe". C'est 100% valide ( n = 4 , même!), Mais ce n'est évidemment pas vrai en général. L'augmentation de la taille de votre ensemble de données (par exemple, pour l'ensemble du bâtiment ou de la ville) devrait réduire ces corrélations parasites et améliorer les performances de votre apprenant.
Cela dit, une situation où plus de données n'aide pas - et peut même nuire - est si vos données d'entraînement supplémentaires sont bruyantes ou ne correspondent pas à ce que vous essayez de prédire. J'ai fait une fois une expérience où j'ai branché différents modèles linguistiques [*] dans un système de réservation de restaurant à commande vocale. J'ai varié la quantité de données de formation ainsi que leur pertinence: à une extrémité, j'avais une petite collection soigneusement organisée de tables de réservation de personnes, un match parfait pour mon application. À l'autre, j'avais un modèle estimé à partir d'une énorme collection de littérature classique, un modèle de langage plus précis, mais une bien pire correspondance avec l'application. À ma grande surprise, le modèle petit mais pertinent a largement surpassé le modèle grand mais moins pertinent.
Une situation surprenante, appelée
double descente , se produit également lorsque la taille de l'ensemble d'apprentissage est proche du nombre de paramètres du modèle. Dans ces cas, le risque d'essai diminue d' abord la taille de l'ensemble de la formation augmente, transitoirement
augmente quand un peu plus de données de formation est ajoutée, et enfin commence à diminuer à nouveau comme l'ensemble de la formation continue de croître. Ce phénomène a été signalé 25 ans dans la littérature sur les réseaux de neurones (voir Opper, 1995), mais se produit également dans les réseaux modernes (
Advani et Saxe, 2017 ). Fait intéressant, cela se produit même pour une régression linéaire, bien qu'un ajustement par SGD (
Nakkiran, 2019). Ce phénomène n'est pas encore totalement compris et présente en grande partie un intérêt théorique: je ne l'utiliserais certainement pas comme raison de ne pas collecter plus de données (bien que je puisse jouer avec la taille du jeu d'entraînement si n == p et les performances étaient inattendues) ).
P( wn= 'rapide', wn + 1= 'marron', wn + 2= 'renard' )