J'ai quelques modèles prédictifs dont je voudrais tester les performances (c.-à-d. Prendre mon jeu de données, le «rembobiner» à un point antérieur dans le temps et voir comment le modèle aurait fonctionné de manière prospective).
Le problème est que certains de mes modèles ont été construits via un processus interactif. Par exemple, en suivant les conseils des stratégies de modélisation de la régression de Frank Harrell , dans un modèle, j'ai utilisé des splines cubiques restreintes pour gérer les associations non linéaires possibles entre les caractéristiques et la réponse. J'ai attribué les degrés de liberté de chaque spline en fonction d'une combinaison de connaissances du domaine et de mesures univariées de la force de l'association. Mais les degrés de liberté que je veux accorder à mon modèle dépendent évidemment de la taille de l'ensemble de données, qui varie considérablement lors des contre-tests. Si je ne veux pas choisir séparément les degrés de liberté à chaque fois que le modèle est testé à nouveau, quelles sont mes autres options?
Pour un autre exemple, je travaille actuellement sur la détection des valeurs aberrantes via la recherche de points avec un effet de levier élevé. Si j'étais heureux de le faire à la main, je regardais simplement chaque point de données à fort effet de levier, vérifiais sainement que les données étaient propres et les filtrais ou les nettoyais à la main. Mais cela repose sur un tas de connaissances de domaine, donc je ne sais pas comment automatiser le processus.
J'apprécierais des conseils et des solutions à la fois (a) au problème général de l'automatisation des parties interactives du processus de construction de modèles, ou (b) des conseils spécifiques pour ces deux cas. Merci!