Taux manquants et imputation multiple

Y a-t-il une limite qui est la moins acceptable lors de l'utilisation de l'imputation multiple (MI)?

Par exemple, puis-je utiliser MI si les valeurs manquantes dans une variable représentent 20% des cas alors que d'autres variables ont des valeurs manquantes mais pas à un niveau aussi élevé?

missing-data data-imputation

— pseudo
source

Je ne considérerais pas 20% comme très élevé, alors je suis sûr que la réponse à votre deuxième question est oui, même si je n'ai pas de justification rigoureuse. Mon intuition est que la seule limite est celle qui empêche l'algorithme de fonctionner. Je me souviens vaguement avoir vu un tableau dans le livre de Rubin montrant des résultats pour des taux de disparitions très élevés. Qu'il soit utile (par opposition à valide) de faire une IM avec des taux de disparité très élevés est une autre question.

— mark999

Beaucoup dépendra de combien vous pouvez supposer que vos manquements manquent complètement au hasard. S'il y a un pourcentage élevé de manquements et qu'ils ne sont pas manquants au hasard, vous pouvez obtenir des estimations biaisées pour l'imputation. Parce que cela doit être fait sur les cas présents dans les données (par définition), où il y a un biais systématique dans les cas manquants, les cas actuels peuvent ne pas être très informatifs du point de vue de l'exactitude.

— Michelle

@ mark999 - Merci pour la réponse. Quand le taux de disparité pour une variable peut-il être considéré comme élevé? Concernant votre dernière question, avez-vous une réponse?

— Nick

@Michelle - Merci. Heureusement, l'hypothèse MAR est tout à fait plausible (et même le MCAR pourrait être considéré comme plausible)

— Nick

@ Nick: Je ne sais pas ce qui devrait être considéré comme un taux très élevé, et je ne pense pas qu'il soit nécessaire d'y mettre un chiffre spécifique. Je n'ai pas de réponse à la dernière question.

— mark999

Réponses:

D'après les commentaires, vous êtes sûr que vous êtes dans une situation MAR ou MCAR. L'imputation multiple est alors au moins raisonnable. Alors, combien de disparitions sont traitables? Pense-y de cette façon:

Fondamentalement, l'imputation multiple rend toutes les estimations des paramètres de votre modèle moins sûres en fonction de la précision avec laquelle les données manquantes peuvent être prédites avec votre modèle d'imputation, qui dépendra, entre autres, de la quantité de manquants qui doivent être imputés, et de la nombre d'imputations que vous utilisez.

Le niveau de manque «trop» dépend donc de la variance / incertitude supplémentaire que vous êtes prêt à supporter. Une quantité utile pour vous pourrait être l'efficacité relative ( ) d'une analyse MI. Cela dépend de la `` fraction des informations manquantes '' (et non du simple taux de manque), généralement appelée , et du nombre d'imputations, généralement appelées , comme . $RE$ $\lambda$ $m$ $RE \approx 1/(1+\lambda/m)$

Plutôt que de générer les définitions des informations manquantes, etc. ici, vous pouvez simplement lire la FAQ MI qui met les choses très clairement. De là, vous saurez si vous voulez vous attaquer aux sources originales: Rubin, etc.

En pratique, vous devriez probablement simplement essayer une analyse d'imputation et voir comment cela fonctionne.

— conjugateprior
source

le lien FAQ est cassé. Y a-t-il une chance que vous en ayez un actuel? (ça a l'air utile)

— drstevok

Ajoutée. Je ne sais pas à quel point c'est officiel.

— conjugateprior

Vous pourriez trouver

Rubin, Donald B. et Nathaniel Schenker. 1986. «Imputation multiple pour l'estimation d'intervalle à partir d'échantillons aléatoires simples avec non-réponse ignorable». Journal de l'American Statistical Association 81 (394): 366–374.

utile.

— RTM
source

Pourriez-vous résumer en quelques mots les recommandations de Rubin pour que cette réponse reste autonome?

— chl

Je vais devoir l'obtenir. J'ai également entendu Joe Shaffer de Penn State dire (beaucoup plus récemment) que l'IM est bon à moins que les données ne soient "VRAIMENT non ignorables"

— Peter Flom

@Peter Flom: La déclaration de Shaffer est intéressante - connaissez-vous des détails?

— mark999

@Peter Flom: Merci (j'ai interprété par erreur votre "beaucoup plus récemment" comme "récemment").

— mark999

@Peter Flom. Typo de ma part, j'ai peur. Le reste de mon commentaire est logique si vous mettez le «non» manquant devant!

— conjugateprior