Mesure d'évaluation des prévisions pour les données de panel / longitudinales

Je voudrais évaluer plusieurs modèles différents qui fournissent des prédictions de comportement à un niveau mensuel. Les données sont équilibrées, et 100 000 et 12. Le résultat est d'assister à un concert au cours d'un mois donné, il est donc nul pour ~ 80% des gens au cours d'un mois, mais il y a une longue queue droite d'utilisateurs lourds. Les prédictions que j'ai ne semblent pas respecter la nature de dénombrement du résultat: les concerts fractionnés sont répandus. $n=$ $T=$

Je ne connais rien aux modèles. Je n'observe que 6 prévisions de boîte noire différentes pour chaque personne par mois. J'ai une année supplémentaire de données que les constructeurs de modèles n'avaient pas pour l'estimation (bien que les spectateurs restent les mêmes), et je voudrais évaluer où chacun se comporte bien (en termes d'exactitude et de précision). Par exemple, certains modèles prédisent-ils bien pour les amateurs de concerts fréquents, mais échouent-ils pour les patates de canapé? La prévision pour janvier est-elle meilleure que la prévision pour décembre? Alternativement, il serait bon de savoir que les prédictions me permettent de classer correctement les gens en termes de chiffres réels, même si l'ampleur exacte ne peut être fiable. $\hat y_1,...,\hat y_6$

Ma première pensée a été d'exécuter des régressions à effets fixes de réels sur des variables indicatrices prédites et temporelles et de regarder les RMSE ou pour chaque modèle. Mais cela ne répond pas à la question de savoir où chaque modèle fonctionne bien ou si les différences sont significatives (sauf si je bootstrap le RMSE). La distribution des résultats m'inquiète également avec cette approche. $R^2$

Ma deuxième idée était de regrouper le résultat en 0, 1-3 et 3+, et de calculer la matrice de confusion, mais cela ignore la dimension temporelle, à moins que j'en fasse 12. C'est aussi assez grossier.

Je connais les commandes Stata concordde TJ Steichen et NJ Cox - qui ont l' by()option, mais cela nécessiterait de regrouper les données en totaux annuels. Cela calcule l' indice de corrélation de concordance de Lin avec des intervalles de confiance, entre autres statistiques utiles. CCC varie de -1 à 1, avec un accord parfait à 1.

Il y a aussi le de Harrell (calculé par R. Newson), qui a l' option, mais je ne suis pas sûr que cela me permettrait de traiter les données du panel. Cela vous donne des intervalles de confiance. Le c de Harrell est la généralisation de l'aire sous une courbe ROC (AUC) pour un résultat continu. C'est la proportion de toutes les paires qui peut être ordonnée de sorte que le sujet avec la prédiction la plus élevée ait réellement le résultat le plus élevé. Donc pour les prédictions aléatoires pour un modèle parfaitement discriminant. Voir le livre de Harrell , p.493 $c$ somersdcluster $c=0.5$ $c=1$

Comment aborderiez-vous ce problème? Recommanderiez-vous de calculer des statistiques comme MAPE qui sont courantes dans les prévisions?

Choses utiles trouvées jusqu'à présent:

Diapositives sur une version à mesures répétées du coefficient de corrélation de concordance de Lin

— Dimitriy V. Masterov
source

Nous aurons besoin d'en savoir plus sur le comportement, est-il ordinal / binaire / continu valorisé? Parce que cette expérience est longitudinale, votre intérêt réside-t-il dans la prévision ou la prévision des résultats chez un individu? Des modèles à effets mixtes sont utilisés pour l'inférence et non pour la prévision. Ils ne fonctionnent pas car, pour prévoir , vous avez besoin d'une estimation de l'effet aléatoire.

— AdamO

Le comportement réel est soit compté, soit continu. Les prédictions sont toutes continues. J'aimerais voir à quel point les prévisions mensuelles au niveau individuel sont bonnes.

— Dimitriy V. Masterov

\hat{Y_{i = 12}} = f (X_{i = 12, 11, \dots, 1}, Y_{i = 11, 10, \dots, 1}

$\widehat{Y_{i=12}} = f(X_{i=12, 11, \cdots, 1}, Y_{i=11, 10, \cdots, 1}$

\hat{Y_{i = I}} = f (X_{i = I, I - 1, \dots, 1}, Y_{i = I - 1, I - 2, \dots, 1}

$\widehat{Y_{i=I}} = f(X_{i=I, I-1, \cdots, 1}, Y_{i=I-1, I-2, \cdots, 1}$

\hat{Y_{i}} = f (X_{i})

$\widehat{Y_{i}} = f(X_{i})$

i

$i$

{\hat{Y}}_{i, 1} = f (Y_{i, t - 1}, X_{i, t}) .

$\hat Y_{i,1}=f(Y_{i,t-1},X_{i,t}).$

{\hat{Y}}_{i, 2} = f ({\hat{Y}}_{i, 1}, X_{i, 2})

$\hat Y_{i,2}=f(\hat Y_{i,1},X_{i,2})$

Y_{i, t}

$Y_{i,t}$

{\hat{Y}}_{i, t}

$\hat Y_{i,t}$

L'estimation implique une estimation des paramètres qui peut faire partie de la «formation» d'un modèle prédictif, mais je pense que vous voulez dire que votre échantillon est utilisé pour la formation d'un modèle prédictif. Ce que vous déclarez ici est un processus semi-markov conditionnel et a des applications uniques dans les prévisions.

— AdamO

Pour évaluer la capacité prédictive d'une prévision semi-markovienne, plusieurs méthodes sont disponibles en fonction de la taille de l'échantillon et d'autres informations disponibles.

Pour évaluer n'importe quel modèle prédictif / prévisionnel, vous avez la possibilité d'une validation croisée (spécifiquement la validation croisée d'échantillons fractionnés ou non), où un modèle est estimé dans un échantillon "d'apprentissage" et l'incertitude du modèle évaluée dans une "validation" échantillon. Selon la distribution du résultat, un certain nombre de mesures sont disponibles par lesquelles vous pouvez sélectionner un modèle parmi un panel de modèles éligibles. Pour les mesures générales non paramétriques de sélection de modèle, les gens aiment vraiment l'AIC et le BIC, en particulier ce dernier.

Les statistiques CCC et c sont utilisées pour évaluer les prédictions transversales binaires comme les tests / tests, vous devrez donc les exclure si vous prédisez, par exemple, l'IMC ou le QI. Ils mesurent l'étalonnage (comme le test Hosmer Lemeshow) et ce qu'on appelle la capacité de stratification du risque. Aucune connexion intuitive à des résultats continus là-bas, du moins pas pour autant que je sache.

RMSE, d'autre part, est utilisé pour évaluer les prédictions continues (sauf le cas de la prédiction des risques dans lequel RMSE est appelé score Brier, un outil d'évaluation de modèle assez archaïque et obsolète). C'est un excellent outil et est probablement utilisé pour calibrer plus de 80% des modèles prédictifs que nous rencontrons quotidiennement (prévisions météorologiques, cotes énergétiques, MPG sur les véhicules, etc.).

Une mise en garde dans la validation ou le rééchantillonnage d'échantillons fractionnés pour évaluer les modèles de prévision est que vous ne pouvez être intéressé par les résultats futurs que lorsque votre échantillon vous laisse prédire les résultats passés. Ne fais pas ça! Il ne reflète pas l'application des modèles et peut grandement influencer la sélection de manière négative. Faites défiler toutes les informations disponibles et prédisez les résultats futurs non observés dans tous les cas disponibles.

À peu près n'importe quel livre de modèles linéaires appliqués couvrira la prédiction, le RMSE et les nuances de la formation et de la validation des modèles. Un bon début serait que Kutner, Nachtsheim, Neter, Li, considèrent également "Time Series Analysis" de Diggle, Diggle Heagerty Zeger Li, "Longitudinal Data Analysis", et potentiellement "Regression Modeling Strategies" de Harrell.

— AdamO
source

CCC et Harrell's c peuvent être utilisés avec des résultats continus. La CCC a également mis en œuvre des mesures répétées. Voir les références / liens que j'ai ajoutés dans la question.

— Dimitriy V. Masterov

Peu importe. Vous ne classifiez pas.

— AdamO