Je ne connais pas de réponse standard à cela, mais j'y ai pensé il y a quelques temps et j'ai quelques idées à partager.
Lorsque vous avez une matrice de confusion, vous avez plus ou moins une image de la façon dont votre modèle de classification confond (classe mal) les classes. Lorsque vous répétez des tests de classification, vous finirez par avoir plusieurs matrices de confusion. La question est de savoir comment obtenir une matrice de confusion agrégée significative. La réponse dépend de la signification du sens (jeu de mots voulu). Je pense qu'il n'y a pas une seule version significative.
Une façon consiste à suivre l'idée approximative de tests multiples. En général, vous testez quelque chose plusieurs fois afin d'obtenir des résultats plus précis. En règle générale, on peut penser que la moyenne des résultats des tests multiples réduit la variance des estimations, ce qui augmente par conséquent la précision des estimations. Vous pouvez bien sûr procéder de cette manière en additionnant position par position puis en divisant par le nombre de tests. Vous pouvez aller plus loin et au lieu d'estimer uniquement une valeur pour chaque cellule de la matrice de confusion, vous pouvez également calculer des intervalles de confiance, des valeurs t, etc. C'est correct de mon point de vue. Mais cela ne raconte qu'un côté de l'histoire.
L'autre côté de l'histoire qui pourrait être étudié est la stabilité des résultats pour les mêmes instances. Pour illustrer cela, je prendrai un exemple extrême. Supposons que vous ayez un modèle de classification pour 3 classes. Supposons que ces classes soient dans la même proportion. Si votre modèle est capable de prédire parfaitement une classe et les 2 autres classes avec des performances aléatoires, vous finirez par avoir un rapport de mauvaise classification de 0,33 + 0,166 + 0,166 = 0,66. Cela peut sembler bon, mais même si vous regardez une seule matrice de confusion, vous ne saurez pas que vos performances sur les 2 dernières classes varient énormément. Plusieurs tests peuvent aider. Mais la moyenne des matrices de confusion révélerait cela? Ma croyance ne l'est pas. La moyenne donnera plus ou moins le même résultat, et faire plusieurs tests ne fera que diminuer la variance de l'estimation.
Donc, une autre façon de composer les matrices de confusion impliquerait mieux une densité de prédiction pour chaque instance. On peut construire cette densité en comptant pour chaque instance, le nombre de fois où il a été prédit une classe donnée. Après la normalisation, vous aurez pour chaque instance une densité de prédiction plutôt qu'une seule étiquette de prédiction. Vous pouvez voir qu'une seule étiquette de prédiction est similaire avec une densité dégénérée où vous avez une probabilité de 1 pour la classe prédite et de 0 pour les autres classes pour chaque instance distincte. Ayant maintenant ces densités, on peut construire une matrice de confusion en ajoutant les probabilités de chaque instance et classe prédite à la cellule correspondante de la matrice de confusion agrégée.
On peut soutenir que cela donnerait des résultats similaires à ceux de la méthode précédente. Cependant, je pense que cela pourrait être le cas parfois, souvent lorsque le modèle a une faible variance, la deuxième méthode est moins affectée par la façon dont les échantillons des tests sont tirés, et donc plus stable et plus proche de la réalité.
De plus, la deuxième méthode peut être modifiée afin d'obtenir une troisième méthode, où l'on peut attribuer comme prédiction l'étiquette avec la densité la plus élevée à partir de la prédiction d'une instance donnée.
Je n'ai pas mis en œuvre ces choses, mais je prévois d'étudier davantage, car je pense que cela vaut la peine de passer du temps.