Influence de l'instabilité dans les prédictions de différents modèles de substitution
Cependant, l'une des hypothèses sous-jacentes à l'analyse binomiale est la même probabilité de succès pour chaque essai, et je ne sais pas si la méthode derrière la classification du «bien» ou du «mal» dans la validation croisée peut être considérée comme ayant la même probabilité de succès.
Eh bien, généralement, cette équivalence est une hypothèse qui est également nécessaire pour vous permettre de regrouper les résultats des différents modèles de substitution.
En pratique, votre intuition que cette hypothèse peut être violée est souvent vraie. Mais vous pouvez mesurer si c'est le cas. C'est là que je trouve la validation croisée itérée utile: la stabilité des prédictions pour le même cas par différents modèles de substitution vous permet de juger si les modèles sont équivalents (prédictions stables) ou non.
Voici un schéma de validation croisée itérative (aka répétée) pli:k
Les classes sont rouges et bleues. Les cercles à droite symbolisent les prédictions. À chaque itération, chaque échantillon est prédit exactement une fois. Habituellement, la moyenne générale est utilisée comme estimation de la performance, en supposant implicitement que la performance des modèles de substitution est égale. Si vous recherchez pour chaque échantillon les prédictions faites par différents modèles de substitution (c'est-à-dire à travers les colonnes), vous pouvez voir la stabilité des prédictions pour cet échantillon.je ⋅ k
Vous pouvez également calculer les performances pour chaque itération (bloc de 3 lignes dans le dessin). Tout écart entre ces deux moyens signifie que l'hypothèse que les modèles de substitution sont équivalents (les uns aux autres et en outre au "grand modèle" construit sur tous les cas) n'est pas remplie. Mais cela vous indique également combien d'instabilité vous avez. Pour la proportion binomiale, je pense que tant que la véritable performance est la même (c'est-à-dire indépendante, que toujours les mêmes cas soient mal prédits ou si le même nombre mais différents cas sont mal prédits). Je ne sais pas si l'on pourrait raisonnablement supposer une distribution particulière pour les performances des modèles de substitution. Mais je pense que c'est en tout cas un avantage par rapport à la déclaration courante des erreurs de classification si vous signalez cette instabilité.kk
≪
nkje
Le dessin est une version plus récente de la fig. 5 dans cet article: Beleites, C. & Salzer, R .: Évaluation et amélioration de la stabilité des modèles chimiométriques dans des situations de petite taille d'échantillon, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Notez que lorsque nous avons écrit le document, je n'avais pas encore pleinement compris les différentes sources de variance que j'ai expliquées ici - gardez cela à l'esprit. Je pense donc que l' argumentationpour une estimation efficace de la taille de l'échantillon, il n'est pas correct, même si la conclusion de l'application selon laquelle différents types de tissus au sein de chaque patient contribuent à autant d'informations globales qu'un nouveau patient avec un type de tissu donné est probablement toujours valable (j'ai un type de des preuves qui le montrent également). Cependant, je ne suis pas encore complètement sûr de cela (ni comment le faire mieux et donc pouvoir vérifier), et ce problème n'est pas lié à votre question.
Quelles performances utiliser pour l'intervalle de confiance binomial?
Jusqu'à présent, j'ai utilisé les performances moyennes observées. Vous pouvez également utiliser la pire performance observée: plus la performance observée est proche de 0,5, plus la variance est grande et donc l'intervalle de confiance. Ainsi, les intervalles de confiance des performances observées les plus proches de 0,5 vous donnent une "marge de sécurité" conservatrice.
Notez que certaines méthodes de calcul des intervalles de confiance binomiaux fonctionnent également si le nombre de succès observé n'est pas un entier. J'utilise «l'intégration de la probabilité postérieure bayésienne» comme décrit dans
Ross, TD: intervalles de confiance précis pour la proportion binomiale et l'estimation du taux de Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(Je ne sais pas pour Matlab, mais dans R, vous pouvez utiliser les binom::binom.bayes
deux paramètres de forme définis sur 1).
n
Voir aussi: Bengio, Y. et Grandvalet, Y .: No Unbias Estimator of the Variance of K-Fold Cross-Validation, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Penser plus à ces choses est sur ma liste de tâches de recherche ..., mais comme je viens de la science expérimentale, j'aime compléter les conclusions théoriques et de simulation avec des données expérimentales - ce qui est difficile ici car j'aurais besoin d'un grand ensemble de cas indépendants pour les tests de référence)
Mise à jour: est-il justifié de supposer une distribution biomiale?
k
n
npn