Voici mes données d'entraînement: 200 000 exemples x 10 000 fonctionnalités. Ma matrice de données d'entraînement est donc de - 200 000 x 10 000.
J'ai réussi à enregistrer cela dans un fichier plat sans avoir de problèmes de mémoire en enregistrant chaque ensemble de données un par un (un exemple après l'autre) pendant que je générais les fonctionnalités pour chaque exemple.
Mais maintenant, quand j'utilise Milk , SVM light ou tout autre algorithme d'apprentissage machine, tout essaie de charger toutes les données d'entraînement en mémoire au lieu de les entraîner une par une. Cependant, je n'ai que 8 Go de RAM, donc je ne peux pas procéder de cette façon.
Savez-vous de toute façon que je pourrais former l'algorithme un ensemble de données par un ensemble de données? C'est-à-dire que, à tout instant, je n'ai qu'un seul ensemble de données chargé en mémoire pendant l'entraînement.