Dans de nombreuses applications d'apprentissage automatique, les méthodes dites d'augmentation des données ont permis de construire de meilleurs modèles. Par exemple, supposons un ensemble de formation de images de chats et de chiens. En tournant, en miroir, en ajustant le contraste, etc., il est possible de générer des images supplémentaires à partir des images originales.
Dans le cas des images, l'augmentation des données est relativement simple. Cependant, supposons (par exemple) que l'on dispose d'un ensemble d'apprentissage de échantillons et de quelques centaines de variables continues qui représentent différentes choses. L'augmentation des données ne semble plus aussi intuitive. Que pourrait-on faire dans un tel cas?