Je suis sur le point d'obtenir mon diplôme de Master et j'ai appris l'apprentissage automatique ainsi que des projets de recherche avec lui. Je m'interroge sur les meilleures pratiques de l'industrie lors de l'exécution de tâches d'apprentissage automatique avec des Big Datasets (comme 100 Go ou To). Appréciez si vos collègues scientifiques des données peuvent partager leur expérience. Voici mes questions:
- De toute évidence, les très grands ensembles de données prennent plus de temps à s'entraîner (cela peut prendre des jours ou des semaines). Plusieurs fois, nous devons former différents modèles (SVM, Neural Network, etc.) pour comparer et trouver un meilleur modèle de performance. Je soupçonne que, dans les projets industriels, nous voulons que les résultats soient aussi rapides que possible mais produisent les meilleures performances. Y a-t-il des conseils pour réduire le temps de formation et de test? Si vous recommandez de sous-ensemble de l'ensemble de données, je serai intéressé d'apprendre comment mieux sous-ensemble l'ensemble de données pour couvrir tout ou la majorité des scénarios de l'ensemble de données.
- Nous savons que la validation croisée est meilleure car elle peut réduire le sur-ajustement. Cependant, la validation croisée prend également du temps à s'entraîner et le modèle formé à la validation croisée peut ne pas être implémenté directement (en parlant de l'expérience de python sklearn: j'ai besoin de former à nouveau le modèle avec l'ensemble de données après les tests de validation croisée pour qu'il soit implémenté). Faites-vous normalement la validation croisée dans vos projets de Big Data ou vous débrouillez-vous avec la division train-test?
Appréciez la rétroaction.