Je voudrais évaluer plusieurs modèles différents qui fournissent des prédictions de comportement à un niveau mensuel. Les données sont équilibrées, et 100 000 et 12. Le résultat est d'assister à un concert au cours d'un mois donné, il est donc nul pour ~ 80% des gens au cours d'un mois, mais il y a une longue queue droite d'utilisateurs lourds. Les prédictions que j'ai ne semblent pas respecter la nature de dénombrement du résultat: les concerts fractionnés sont répandus.
Je ne connais rien aux modèles. Je n'observe que 6 prévisions de boîte noire différentes pour chaque personne par mois. J'ai une année supplémentaire de données que les constructeurs de modèles n'avaient pas pour l'estimation (bien que les spectateurs restent les mêmes), et je voudrais évaluer où chacun se comporte bien (en termes d'exactitude et de précision). Par exemple, certains modèles prédisent-ils bien pour les amateurs de concerts fréquents, mais échouent-ils pour les patates de canapé? La prévision pour janvier est-elle meilleure que la prévision pour décembre? Alternativement, il serait bon de savoir que les prédictions me permettent de classer correctement les gens en termes de chiffres réels, même si l'ampleur exacte ne peut être fiable.
Ma première pensée a été d'exécuter des régressions à effets fixes de réels sur des variables indicatrices prédites et temporelles et de regarder les RMSE ou pour chaque modèle. Mais cela ne répond pas à la question de savoir où chaque modèle fonctionne bien ou si les différences sont significatives (sauf si je bootstrap le RMSE). La distribution des résultats m'inquiète également avec cette approche.
Ma deuxième idée était de regrouper le résultat en 0, 1-3 et 3+, et de calculer la matrice de confusion, mais cela ignore la dimension temporelle, à moins que j'en fasse 12. C'est aussi assez grossier.
Je connais les commandes Stata concord
de TJ Steichen et NJ Cox - qui ont l' by()
option, mais cela nécessiterait de regrouper les données en totaux annuels. Cela calcule l' indice de corrélation de concordance de Lin avec des intervalles de confiance, entre autres statistiques utiles. CCC varie de -1 à 1, avec un accord parfait à 1.
Il y a aussi le de Harrell (calculé
par R. Newson), qui a l' option, mais je ne suis pas sûr que cela me permettrait de traiter les données du panel. Cela vous donne des intervalles de confiance. Le c de Harrell est la généralisation de l'aire sous une courbe ROC (AUC) pour un résultat continu. C'est la proportion de toutes les paires qui peut être ordonnée de sorte que le sujet avec la prédiction la plus élevée ait réellement le résultat le plus élevé. Donc pour les prédictions aléatoires c = 1 pour un modèle parfaitement discriminant. Voir le livre de Harrell , p.493somersd
cluster
Comment aborderiez-vous ce problème? Recommanderiez-vous de calculer des statistiques comme MAPE qui sont courantes dans les prévisions?
Choses utiles trouvées jusqu'à présent:
- Diapositives sur une version à mesures répétées du coefficient de corrélation de concordance de Lin