Je ne sais pas si cela peut être considéré comme un commentaire ou une réponse. Je mets ici parce que cela ressemble à une réponse.
Dans la validation croisée k-fold, vous partitionnez vos données en k groupes. Si vous couvrez même les "bases", vous sélectionnez uniformément et aléatoirement des membres pour chacun des k bacs.
Lorsque je parle de données, je considère chaque ligne comme un échantillon et chaque colonne comme une dimension. J'ai l'habitude d'utiliser diverses méthodes pour déterminer l'importance variable, l'importance des colonnes.
Et si, en tant qu'exercice de réflexion, vous vous écartiez de l'uniforme "manuel" au hasard et déterminiez quelles lignes étaient importantes? Peut-être qu'ils informent une seule variable à la fois, mais peut-être qu'ils en informent davantage. Y a-t-il des lignes moins importantes que d'autres? Peut-être que bon nombre des points sont informatifs, peut-être peu.
Connaissant l'importance de la variable, vous pourriez peut-être les regrouper par importance. Peut-être pourriez-vous faire un seul bac avec les échantillons les plus importants. Cela pourrait définir la taille de votre "k". De cette façon, vous détermineriez le kième seau "le plus informatif" et le compareriez aux autres, et au seau le moins informatif.
Cela pourrait vous donner une idée de la variation maximale des paramètres de votre modèle. Ce n'est qu'une forme.
Une deuxième façon de diviser les kth godets est par l'ampleur et la direction de l'influence. Vous pouvez donc mettre des échantillons qui influencent un ou plusieurs paramètres dans une direction dans un compartiment et placer des échantillons qui influencent le même paramètre ou les paramètres dans la direction opposée dans un autre compartiment.
La variation des paramètres sous cette forme pourrait donner un balayage plus large aux variables, basé non pas sur la densité de l'information, mais sur la race de l'information.
Bonne chance.