Mon modèle est-il bon, basé sur la valeur de la métrique de diagnostic (


12

J'ai monté mon modèle et j'essaie de comprendre si c'est bon. J'ai calculé les métriques recommandées pour l'évaluer ( R2 / AUC / précision / erreur de prédiction / etc) mais je ne sais pas comment les interpréter. En bref, comment savoir si mon modèle est bon en fonction de la métrique? Est un R2 de 0,6 (par exemple) suffisante pour me laisser procéder à tirer des conclusions ou de la base des décisions scientifiques / d'affaires?


Cette question est intentionnellement large, pour couvrir une grande variété de situations que les membres rencontrent fréquemment; ces questions pourraient être fermées en double de celle-ci. Les modifications visant à élargir la portée au-delà des mesures mentionnées ici sont les bienvenues, tout comme les réponses supplémentaires - en particulier celles qui offrent un aperçu des autres classes de mesures.


1
Connexes: Comment savoir que votre problème d'apprentissage automatique est sans espoir? Comme dans "J'ai , cela signifie-t-il que je ne peux pas l'améliorer davantage?" R2=0,6
Stephan Kolassa

2
Ligne de base pour ou toute autre métrique utilisée? Aller de R 2 = 0,03 à R 2 = 0,05 peut être un saut de performance incroyable dans certaines applications. C'estexactementainsiquefonctionnent toutes les publications raisonnables. Nous avons un modèle proposé, nous avons une série de mesures bien acceptées, nous avons une connaissance de l'état de l'art et nous comparons les performances. Et c'est ainsi que nous savons si notre modèle estbon. R2R2=0,03R2=0,05
usεr11852

Réponses:


18

Cette réponse se concentrera principalement sur R2 , mais la majeure partie de cette logique s'étend à d'autres mesures telles que l'AUC et ainsi de suite.

Les lecteurs de CrossValidated ne peuvent certainement pas répondre correctement à cette question. Il n'existe aucun moyen sans contexte de décider si les métriques de modèle telles que R2 sont bonnes ou non . Aux extrêmes, il est généralement possible d'obtenir le consensus d'une grande variété d'experts: un R2 de près de 1 indique généralement un bon modèle et de près de 0 indique un terrible. Entre les deux se trouve une plage où les évaluations sont intrinsèquement subjectives. Dans cette gamme, il faut plus qu'une simple expertise statistique pour savoir si votre métrique de modèle est bonne. Il faut une expertise supplémentaire dans votre domaine, que les lecteurs CrossValidated n'ont probablement pas.

Pourquoi est-ce? Permettez-moi d'illustrer avec un exemple de ma propre expérience (détails mineurs modifiés).

J'avais l'habitude de faire des expériences de laboratoire de microbiologie. Je mettrais en place des flacons de cellules à différents niveaux de concentration en nutriments et mesurerais la croissance de la densité cellulaire (c'est-à-dire la pente de la densité cellulaire en fonction du temps, bien que ce détail ne soit pas important). Lorsque j'ai ensuite modélisé cette relation croissance / nutriment, il était courant d'obtenir des valeurs R2 > 0,90.

Je suis maintenant spécialiste de l'environnement. Je travaille avec des jeux de données contenant des mesures de la nature. Si j'essaie d'adapter exactement le même modèle décrit ci-dessus à ces ensembles de données «de terrain», je serais surpris si le R2 atteignait 0,4.

Ces deux cas impliquent exactement les mêmes paramètres, avec des méthodes de mesure très similaires, des modèles écrits et ajustés en utilisant les mêmes procédures - et même la même personne qui fait le montage! Mais dans un cas, un R2 de 0,7 serait une faiblesse inquiétante, et dans l'autre , il serait soupçonneux élevé.

De plus, nous prendrions des mesures chimiques parallèlement aux mesures biologiques. Les modèles pour les courbes standard de la chimie devraient R2 autour de 0,99, et une valeur de 0,90 serait inquiétant faible .


Qu'est-ce qui conduit à ces grandes différences d'attentes? Le contexte. Ce terme vague couvre un vaste domaine, alors permettez-moi d'essayer de le séparer en quelques facteurs plus spécifiques (ce qui est probablement incomplet):

1. Quel est le gain / la conséquence / l'application?

R2

R2d'oiseaux. Jusqu'à il y a quelques décennies, des précisions d'environ 85% étaient considérées comme élevées aux États-Unis. De nos jours, l'intérêt d'atteindre la plus grande précision, de l'ordre de 99%? Un salaire qui peut apparemment aller de 60 000 à 180 000 dollars par an (sur la base d'une recherche rapide sur Google). Étant donné que les humains sont encore limités dans la vitesse à laquelle ils travaillent, les algorithmes d'apprentissage automatique qui peuvent atteindre une précision similaire mais permettre un tri plus rapide pourraient valoir des millions.

(J'espère que vous avez apprécié l'exemple - l'alternative était déprimante concernant l'identification algorithmique très contestable des terroristes).

2. Quelle est l'influence de facteurs non modélisés dans votre système?

R2

3. Vos mesures sont-elles précises et précises?

R2

4. Complexité et généralisabilité du modèle

Si vous ajoutez plus de facteurs à votre modèle, même aléatoires, vous augmenterez en moyenne le modèle R2 (ajustéR2

Si le sur-ajustement est ignoré ou n’est pas évité avec succès, le R 2 estiméR2R2

OMI, le sur-ajustement est étonnamment commun dans de nombreux domaines. La meilleure façon d'éviter cela est un sujet complexe, et je recommande de lire les procédures de régularisation et la sélection de modèles sur ce site si cela vous intéresse.

5. Gamme de données et extrapolation

Votre ensemble de données s'étend-il sur une partie substantielle de la plage de valeurs X qui vous intéresse? L'ajout de nouveaux points de données en dehors de la plage de données existante peut avoir un effet important sur l'estimationR2

En plus de cela, si vous ajustez un modèle à un ensemble de données et que vous devez prédire une valeur en dehors de la plage X de cet ensemble de données (c.-à-d. extrapoler ), vous pourriez constater que ses performances sont inférieures à celles attendues. En effet, la relation que vous avez estimée pourrait bien changer en dehors de la plage de données que vous avez ajustée. Dans la figure ci-dessous, si vous avez pris des mesures uniquement dans la plage indiquée par la case verte, vous pourriez imaginer qu'une ligne droite (en rouge) décrivait bien les données. Mais si vous tentiez de prédire une valeur en dehors de cette plage avec cette ligne rouge, vous seriez tout à fait incorrect.

entrez la description de l'image ici

[La figure est une version modifiée de celle-ci , trouvée via une recherche rapide sur Google pour «courbe Monod».]

6. Les mesures ne vous donnent qu'une partie de l'image

Ce n'est pas vraiment une critique des métriques - elles sont résumés , ce qui signifie qu'ils jettent également des informations par conception. Mais cela signifie que toute métrique unique laisse de côté les informations qui peuvent être cruciales pour son interprétation. Une bonne analyse prend en considération plus d'une seule métrique.


Suggestions, corrections et autres commentaires bienvenus. Et d'autres réponses aussi, bien sûr.


3
R2R2

@Lewian Merci pour vos commentaires. Je pensais avoir couvert cela aux points 2 et 3, mais je vois que cela peut être amélioré. Je vais réfléchir à la façon de clarifier ce point.
mkt

1
Oui, je me suis demandé si cela était déjà couvert. Le problème avec 2 et 3 est qu'ils donnent des raisons spécifiques pour lesquelles cela pourrait se produire, mais c'est un problème général.
Lewian

@Lewian D'accord, je vais y réfléchir.
mkt

2

Ce problème se pose dans mon domaine de l'hydrologie lors de l'évaluation de la façon dont les modèles prédisent le débit des données pluviométriques et climatiques. Certains chercheurs ( Chiew et McMahon, 1993 ) ont interrogé 93 hydrologues (63 ont répondu) pour savoir quels graphiques de diagnostic et statistiques de qualité de l'ajustement ils ont utilisés, qui étaient les plus importants, et comment ils ont été utilisés pour classer la qualité de l'ajustement d'un modèle. . Les résultats sont désormais datés mais l'approche peut encore être intéressante. Ils ont présenté les résultats des ajustements de modèles de différentes qualités et ont demandé aux hydrologues de les classer en 4 catégories (1) résultat parfaitement acceptable; (2) acceptable mais à utiliser avec réservation; (3) inacceptable, utiliser uniquement s'il n'y a pas d'autre alternative; et (4) ne jamais utiliser dans aucune condition.

Les graphiques de diagnostic les plus importants étaient les diagrammes de série temporelle et les diagrammes de dispersion des flux simulés et enregistrés à partir des données utilisées pour l'étalonnage. Le coefficient d'efficacité (E) du modèle R et du modèle de Nash-Sutcliffe était la qualité préférée des statistiques d'ajustement. Par exemple, les résultats étaient jugés acceptables si E => 0,8

Il existe d'autres exemples dans la littérature. Lors de l'évaluation d'un modèle d'écosystème en mer du Nord, la catégorisation suivante a été utilisée E> 0,65 excellent, 0,5 à 0,65 très bon, 0,2 à 0,5 aussi bon et <0,2 aussi mauvais ( Allen et al., 2007 ).

Moriasi et al., (2015) fournit des tableaux de valeurs acceptables pour les mesures pour divers types de modèles.

J'ai résumé ces informations et références dans un article de blog .

Allen, J., P. Somerfield et F. Gilbert (2007), Quantifier l'incertitude dans les modèles hydrodynamiques et écosystémiques couplés à haute résolution, J. Mar. Syst., 64 (1–4), 3–14, doi: 10.1016 /j.jmarsys.2006.02.010.

Moriasi, D., Gitau, M. Pai, N. et Daggupati, P. (2015) Hydrologic and Water Quality Models: Performance Measures and Evaluation Criteria Transactions of the ASABE (American Society of Agricultural and Biological Engineers) 58 (6): 1763-1785


0

Pour ajouter aux bonnes réponses ci-dessus - d'après mon expérience, les mesures d'évaluation et les outils de diagnostic sont aussi bons et honnêtes que la personne qui les utilise. Autrement dit, si vous comprenez les mathématiques derrière eux, vous pouvez probablement les augmenter artificiellement pour améliorer l'apparence de votre modèle sans augmenter son utilité réelle.

R2=0,03R2=0,05

Je garderai cette réponse courte car les éléments ci-dessus font un excellent travail en fournissant des explications / références. Je voulais juste ajouter un peu de perspective sur la section sur 6. Les mesures ne vous donnent qu'une partie de l'image par la réponse de mkt.

J'espère que cela t'aides.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.