Dois-je réorganiser mes données?

Nous avons un ensemble d'échantillons biologiques qui était assez cher à obtenir. Nous avons soumis ces échantillons à une série de tests pour générer des données qui sont utilisées pour construire un modèle prédictif. À cette fin, nous avons divisé les échantillons en ensembles d'apprentissage (70%) et d'essai (30%). Nous avons réussi à créer un modèle et à l'appliquer sur l'ensemble de test pour découvrir que les performances étaient "moins qu'optimales". Les expérimentateurs veulent maintenant améliorer les tests biologiques afin de créer un meilleur modèle. À condition que nous ne puissions pas obtenir de nouveaux échantillons, nous suggéreriez-vous de remélanger les échantillons pour créer de nouveaux ensembles de formation et de validation ou de vous en tenir à la division d'origine. (Nous n'avons aucune indication que la division était problématique).

— DavidDong
source

Comment avez-vous divisé les données? Au hasard, à la main, ou une autre méthode? Bien que, en vérité, la partie sur «la création réussie d'un modèle» soit une partie BEAUCOUP plus importante du problème. Avant de faire des choses coûteuses, vous devriez voir si vous utilisez le type de modèle approprié, si vous avez trop adapté vos données d'entraînement et si vous avez les données appropriées pour ce que vous essayez de prédire.

— Wayne

BTW, j'ai oublié d'activer le mode cynisme avant de "créer un modèle avec succès"

— DavidDong

Comme vous utilisez déjà un exemple d'exclusion, je dirais que vous devez le conserver et créer vos nouveaux modèles sur le même exemple de formation afin que tous les modèles prennent en compte les mêmes relations entre les fonctionnalités. De plus, si vous effectuez une sélection de fonction, les échantillons doivent être omis avant l'une de ces étapes de filtrage; c'est-à-dire que la sélection des caractéristiques doit être incluse dans la boucle de validation croisée.

Il convient de noter qu'il existe des méthodes plus puissantes qu'un fractionnement de 0,67 / 0,33 pour la sélection de modèle, à savoir la validation croisée k-fold ou la mise à l'écart. Voir, par exemple, The Elements of Statistical Learning (§7.10, pp. 241-248), www.modelselection.org ou A survey of cross-validation procedures for model selection by Arlot and Celisse (plus de connaissances mathématiques avancées requises).

— chl
source