Comparaison des distributions de performances de généralisation

Disons que j'ai deux méthodes d'apprentissage pour un problème de classification , et , et que j'évalue leurs performances de généralisation avec quelque chose comme la validation croisée répétée ou le bootstrap. De ce processus, j'obtiens une distribution des scores et pour chaque méthode à travers ces répétitions (par exemple la distribution des valeurs ROC AUC pour chaque modèle). $A$ $B$ $P_A$ $P_B$

En regardant ces distributions, il se pourrait que mais que (c'est-à-dire que les performances de généralisation attendues de soient supérieures à , mais qu'il y ait plus d'incertitude sur cette estimation). $\mu_A \ge \mu_B$ $\sigma_A \ge \sigma_B$ $A$ $B$

Je pense que cela s'appelle le dilemme biais-variance dans la régression.

Quelles méthodes mathématiques puis-je utiliser pour comparer et et éventuellement prendre une décision éclairée sur le modèle à utiliser? $P_A$ $P_B$

Remarque: Par souci de simplicité, je me réfère ici à deux méthodes et , mais je m'intéresse aux méthodes qui peuvent être utilisées pour comparer la distribution des scores de ~ 1000 méthodes d'apprentissage (par exemple à partir d'une recherche sur la grille) et éventuellement faire une décision finale sur le modèle à utiliser. $A$ $B$

cross-validation model-selection

— Amelio Vazquez-Reina
source

Je pense que le terme compromis biais-variance ne s'applique pas ici, car vous ne décomposez pas une erreur quadratique moyenne en un biais et une variance, et vous ne parlez pas de la variance d'un estimateur mais de la variance d'un score.

— Lucas

Merci @Lucas. J'essaie d'estimer le score de mes classificateurs et sur des données invisibles . Pour cela, je pensais pouvoir prendre la moyenne des scores sur les données vues comme mes estimateurs (c'est-à-dire et pour et respectivement). La variance de ces estimateurs est-elle différente de la variance des scores et ?

A

$A$

B

$B$

E (P_{A})

$E(P_A)$

E (P_{B})

$E(P_B)$

A

$A$

B

$B$

P_{A}

$P_A$

P_{B}

$P_B$

— Amelio Vazquez-Reina

@ user815423426 Je pense que la comparaison dépend de la fonction de perte que vous avez. Diebold et Mariano (2002) ont un bon article pour étudier votre question. Ils ont proposé des tests statistiques comparant les performances de "généralisation". Je ne sais pas comment mettre en place un lien dans les commentaires. L'article est: Diebold, Francis X., et Robert S. Mariano. "Comparaison de la précision prédictive." Journal of Business & Economic Statistics 20.1 (2002): 134-144.

— semibruin

S'il n'y a que deux méthodes, A et B, je calculerais la probabilité que pour une partition d'entraînement / test arbitraire que l'erreur (selon une mesure de performance appropriée) pour le modèle A soit inférieure à l'erreur pour le modèle B. Si cette probabilité étaient supérieurs à 0,5, j'avais choisi le modèle A et sinon le modèle B (cf test U de Mann-Whitney?) Cependant, je soupçonne fortement que cela finira par choisir le modèle avec la moyenne inférieure à moins que les distributions de la statistique de performance soient très non -symétrique.

En revanche, pour la recherche dans la grille, la situation est un peu différente car vous ne comparez pas vraiment différentes méthodes, mais ajustez plutôt les paramètres (hyper-) du même modèle pour qu'ils s'adaptent à un échantillon fini de données (dans ce cas indirectement via cross -validation). J'ai trouvé que ce type de réglage peut être très sujet à un ajustement excessif, voir mon article

Gavin C. Cawley, Nicola LC Talbot, «Sur le sur-ajustement dans la sélection de modèle et les biais de sélection ultérieurs dans l'évaluation de la performance», Journal of Machine Learning Research, 11 (juillet): 2079−2107, 2010. ( www )

J'ai un article en revue qui montre qu'il est probablement préférable d'utiliser une grille relativement grossière pour les machines à noyau (par exemple les SVM) pour éviter de sur-ajuster le critère de sélection du modèle. Une autre approche (que je n'ai pas étudiée, donc mise en garde!) Serait de choisir le modèle avec l'erreur la plus élevée qui n'est pas statistiquement inférieure au meilleur modèle trouvé dans la recherche de grille (bien que cela puisse être une approche plutôt pessimiste, en particulier pour les petits jeux de données).

La vraie solution n'est cependant probablement pas d'optimiser les paramètres en utilisant la recherche par grille, mais de faire la moyenne sur les valeurs des paramètres, soit dans une approche bayésienne, soit tout simplement comme une méthode d'ensemble. Si vous n'optimisez pas, il est plus difficile de sur-ajuster!

— Dikran Marsupial
source

Merci Dikran. Lorsque vous dites que "average over the parameter values"je pense comprendre comment le faire à travers une méthode d'ensemble (par exemple, construire la sortie d'ensemble comme la moyenne des sorties du classificateur), mais je ne sais pas comment le faire avec une approche bayésienne lorsque vous travaillez avec un modèle discriminant. Je comprends la théorie d'une approche entièrement bayésienne (c'est-à-dire éviter les estimations ponctuelles et marginaliser les paramètres pour construire le postérieur final), mais, en supposant que mon a priori sur les paramètres est uniforme, cela ne serait-il pas équivalent à construire l'ensemble de moyenne ?

— Amelio Vazquez-Reina

Dans l'approche bayésienne, les modèles seraient pondérés par leur vraisemblance marginale (c'est-à-dire les preuves bayésiennes) et tout prioritaire placé sur les hyperparamètres, il s'agirait donc d'un cas particulier de moyenne sur un ensemble avec une méthode particulière pour pondérer les modèles.

— Dikran Marsupial