Dois-je prendre des décisions basées sur des mesures d'évaluation micro-moyennes ou macro-moyennes?

J'ai effectué une validation croisée 10 fois sur différents algorithmes de classification binaire, avec le même ensemble de données, et j'ai reçu des résultats moyens à la fois micro et macro. Il convient de mentionner qu'il s'agissait d'un problème de classification multi-étiquettes.

Dans mon cas, les vrais négatifs et les vrais positifs sont pondérés également. Cela signifie que prédire correctement les vrais négatifs est tout aussi important que prédire correctement les vrais positifs.

Les mesures micro-moyennes sont inférieures à celles macro-moyennes. Voici les résultats d'un réseau neuronal et d'une machine à vecteur de support:

entrez la description de l'image ici

J'ai également effectué un test de répartition en pourcentage sur le même ensemble de données avec un autre algorithme. Les résultats ont été:

entrez la description de l'image ici

Je préférerais comparer le test de répartition en pourcentage avec les résultats à moyenne macro, mais est-ce juste? Je ne crois pas que les résultats macro-moyennes soient biaisés parce que les vrais positifs et les vrais négatifs sont pondérés également, mais là encore, je me demande si c'est la même chose que de comparer des pommes avec des oranges?

MISE À JOUR

Sur la base des commentaires, je montrerai comment les moyennes micro et macro sont calculées.

J'ai 144 étiquettes (les mêmes que les caractéristiques ou les attributs) que je veux prédire. La précision, le rappel et la mesure F sont calculés pour chaque étiquette.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

En considérant une mesure d'évaluation binaire B (tp, tn, fp, fn) qui est calculée sur la base des vrais positifs (tp), des vrais négatifs (tn), des faux positifs (fp) et des faux négatifs (fn). Les macro et micro moyennes d'une mesure spécifique peuvent être calculées comme suit:

entrez la description de l'image ici

En utilisant ces formules, nous pouvons calculer les moyennes micro et macro comme suit:

entrez la description de l'image ici

Ainsi, les mesures micro-moyennes ajoutent tous les tp, fp et fn (pour chaque étiquette), après quoi une nouvelle évaluation binaire est effectuée. Les mesures macro-moyennes ajoutent toutes les mesures (précision, rappel ou mesure F) et divisent par le nombre d'étiquettes, ce qui ressemble plus à une moyenne.

Maintenant, la question est laquelle utiliser?

machine-learning cross-validation

— Kenci
source

Lorsque vous demandez lequel utiliser, quelle est l'utilisation prévue? Choisir entre les deux méthodes, résumer les résultats ou autre chose?

— Sean Easter

L'utilisation prévue est de déterminer quel modèle est le plus supérieur et de dire quelque chose sur ses performances. J'ai découvert que les micro-mesures sont supérieures selon: Forman, George et Martin Scholz. "Pommes à pommes dans les études de validation croisée: pièges dans la mesure des performances du classificateur." ACM SIGKDD Explorations Newsletter 12.1 (2010): 49-57.

— Kenci

@Kenci, je crois que vous devriez poster cela comme réponse à votre propre question et confirmer que c'est la bonne réponse. Merci pour la référence!

— fnl

FYI Micro vs score F1 pondéré

— Franck Dernoncourt

Si vous pensez que toutes les étiquettes sont de taille plus ou moins égale (ont à peu près le même nombre d'instances), utilisez any.

Si vous pensez qu'il existe des étiquettes avec plus d'instances que d'autres et si vous souhaitez biaiser votre métrique vers les plus peuplées, utilisez le micromédia .

Si vous pensez qu'il y a des étiquettes avec plus d'instances que d'autres et si vous souhaitez biaiser votre métrique vers les moins peuplées (ou du moins vous ne voulez pas biaiser vers les plus peuplées), utilisez macromedia .

Si le résultat micromédia est nettement inférieur à celui macromédia, cela signifie que vous avez une mauvaise classification grossière dans les étiquettes les plus peuplées, alors que vos petites étiquettes sont probablement correctement classées. Si le résultat macromédia est nettement inférieur à celui micromédia, cela signifie que vos petites étiquettes sont mal classées, tandis que vos plus grandes sont probablement correctement classées.

Si vous ne savez pas quoi faire, continuez avec les comparaisons à la fois sur micro et macro-moyenne :)

Ceci est un bon article sur le sujet.

— Felipeduque
source