Mise en commun des tracés d'étalonnage après imputation multiple


15

Je voudrais des conseils sur la mise en commun des tracés / statistiques d'étalonnage après imputation multiple. Dans le cadre du développement de modèles statistiques afin de prédire un événement futur (par exemple en utilisant les données des dossiers hospitaliers pour prédire la survie ou les événements après la sortie de l'hôpital), on peut imaginer qu'il y a trop d'informations manquantes. L'imputation multiple est un moyen de gérer une telle situation, mais entraîne la nécessité de regrouper les statistiques des tests de chaque ensemble de données d'imputation en tenant compte de la variabilité supplémentaire due à l'incertitude inhérente à l'imputation.

Je comprends qu'il existe plusieurs statistiques d'étalonnage (hosmer-lemeshow, Harrell's Emax, indice d'étalonnage estimé, etc.), pour lesquelles les règles Rubin `` régulières '' de mise en commun peuvent s'appliquer.

Cependant, ces statistiques sont souvent des mesures globales de calibration qui ne montrent pas de régions spécifiques mal calibrées du modèle. Pour cette raison, je préfère regarder un tracé d'étalonnage. Malheureusement, je ne sais pas comment `` mettre en commun '' les parcelles ou les données qui les sous-tendent (probabilités prédites par individu et résultats observés par individu), et je ne trouve pas grand-chose dans la littérature biomédicale (le domaine que je connais), ou ici, sur CrossValidated. Bien sûr, regarder le tracé d'étalonnage de chaque jeu de données d'imputation pourrait être une réponse, mais pourrait devenir assez gênant (à présenter) lorsque de nombreux ensembles d'imputation sont créés.

Je voudrais donc demander s'il existe des techniques qui aboutiraient à un tracé d'étalonnage, regroupées après imputation multiple (?)


Est-il possible de regrouper directement les échantillons amorcés et d'évaluer l'étalonnage de cet échantillon?
AdamO

@AdamO qu'entendez-vous exactement par regroupement direct? Et à quels exemples de bootstrap faites-vous référence?
IWS

2
Désolé, permettez-moi de revenir en arrière (je pense à MI comme un bootstrap). Je dis, si votre n est 1 000 et que vous avez 5 ensembles de données MI, pourquoi ne pas créer un seul tracé d'étalonnage à partir du 5 000 et comparer l'observé / attendu de la manière souhaitée dans ces 5 000?
AdamO

@AdamO Cela semble intéressant, cela nécessiterait un ajustement des fonctions qui fournissent également un intervalle de confiance. Des références ou des théories pour soutenir cette idée?
IWS

2
Pas de références, nous avons récemment publié un article où nous avons déclaré sans preuve que nous avions obtenu une inférence pour les erreurs standard de bootstrap et l'imputation multiple en les regroupant de cette manière. Je pense que vous pouvez affirmer que le but de l'analyse est de tester au niveau 0,05 que le rapport ou la différence espérance / observation se situe dans une plage de distribution normale et que les estimations quantiles sont invariantes par rapport à la taille de l'échantillon, donc des tests basés sur l'IC à 95% n'est pas affecté par la mise en commun.
AdamO

Réponses:


1

[...] si votre n est égal à 1 000 et que vous disposez de 5 ensembles de données MI, pourquoi ne pas créer un seul tracé d'étalonnage à partir des 5 000 et comparer l'observé / attendu de la manière souhaitée dans ces 5 000?

Concernant les références:

Pas de références, nous avons récemment publié un article où nous avons déclaré sans preuve que nous avions obtenu une inférence pour les erreurs standard de bootstrap et l'imputation multiple en les regroupant de cette manière. Je pense que vous pouvez affirmer que le but de l'analyse est de tester au niveau 0,05 que le rapport ou la différence espérance / observation se situe dans une plage de distribution normale et que les estimations quantiles sont invariantes par rapport à la taille de l'échantillon, donc des tests basés sur l'IC à 95% n'est pas affecté par la mise en commun.


1
J'ai copié ce commentaire par @AdamO en tant que réponse wiki communautaire parce que le commentaire est, plus ou moins, une réponse à cette question. Nous avons un écart dramatique entre les réponses et les questions. Au moins une partie du problème est que certaines questions reçoivent une réponse dans les commentaires: si les commentaires qui ont répondu à la question étaient des réponses à la place, nous aurions moins de questions sans réponse.
mkt
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.