Quand est-ce une bonne idée d'utiliser simplement la moyenne pour l'imputation?

9

Supposons que nous ayons un test d' ensemble de données :

Le . dénote des valeurs manquantes. Quand serait-il préférable d'utiliser la moyenne des valeurs non manquantes pour imputer les valeurs manquantes plutôt que de supposer que les données proviennent d'une distribution normale?

missing-data

— thoms
source

7

Don Rubin a écrit un article influent prouvant qu'il n'y a pas de méthode d' imputation unique qui produira des inférences non biaisées (où «imputation unique» signifie l'imputation d'une seule valeur pour une observation manquante). Cependant, dans le même document, il a souligné qu'il pourrait très bien être possible de créer plusieurs imputations dont la moyenne est une estimation non biaisée de la valeur manquante et dont les contributions à l'augmentation de la variance dans l'analyse subséquente constituent une estimation raisonnable de l'incertitude supplémentaire due aux données. manque.

Voici son article:

Rubin, DB (1976). Inférence et données manquantes. Biometrika , 63 (3): 581–592.

Et ceci une mise à jour: Rubin, DB (1996). Imputation multiple après 18 ans et plus. Journal de l'American Statistical Association , 91 (434): 473–489.

Et voici une introduction en douceur au sujet de l'imputation multiple:

Schafer, JL (1999). Imputation multiple: une amorce. Méthodes statistiques dans la recherche médicale , 8: 3–15.

Il existe une variété de logiciels statistiques qui prennent en charge l'imputation multiple (par exemple, les souris dans R, ou la glace dans Stata, ou bien les capacités d'imputation multiple intégrées de Stata dans les versions récentes).

— Alexis
source

2

Je comprends l'argument de Rubin selon lequel vous pouvez obtenir une estimation ponctuelle non biaisée en utilisant une imputation unique prudente, mais les erreurs standard seront erronées. Cependant, dans de nombreux cas, l'imputation moyenne aura d'autres problèmes, en particulier des modèles de distorsion d'association avec d'autres variables.

— Maarten Buis

@MaartenBuis Merci, j'ai essayé de corriger cela dans ma révision ... ça marche?

— Alexis

Pas vraiment. Le point d'imputation (multiple) n'est pas d'estimer les valeurs manquantes, celles-ci sont supposées être perdues à jamais. Cependant, vous savez souvent d'autres choses sur ces individus / entreprises / vaches, c'est-à-dire que d'autres variables sont observées pour ces observations. Avec l'imputation (multiple), vous souhaitez utiliser au mieux ces données observées, que vous jeteriez si vous ignoriez toutes les observations avec au moins une valeur manquante.

— Maarten Buis

1

Suggestion: ... aucune méthode d' imputation unique qui produira une inférence non biaisée. Cela signifie qu'avec une imputation unique, les erreurs standard, les valeurs et les intervalles de confiance seront désactivés dans le sens où ils ignoreront l'incertitude introduite par l'imputation.

p

$p$

— Maarten Buis

4

Ce n'est jamais une bonne idée de le faire, mais s'il y a très peu de données manquantes, cela fera relativement peu de mal, sera beaucoup plus facile à mettre en œuvre et, selon votre public final, peut être beaucoup plus facile à expliquer. Cependant, un public relativement sophistiqué peut s'opposer à l'imputation moyenne unique.

— Peter Flom
source

1

On peut également effectuer des analyses de sensibilité en mettant, par exemple, des résultats entre crochets sur la base d'une imputation moyenne avec des résultats comprenant des imputations minimales et maximales raisonnables.

— Alexis

1

La question: "Quelle méthode d'imputation est le meilleur choix" dépend toujours de l'ensemble de données que vous regardez

En prenant la moyenne, en général, c'est une méthode d'imputation valide. Comme quelqu'un l'a déjà mentionné, il est facile à expliquer pour les publications et il a ses avantages en termes de vitesse de calcul.

La méthode de l'imputation moyenne est un bon choix pour les séries qui fluctuent de manière aléatoire autour d'une certaine valeur / niveau.

Pour la série présentée, la moyenne ne semble pas appropriée. Puisqu'il s'agit également d'une seule variable, vous ne pouvez pas utiliser les algorithmes multivariés classiques fournis par les souris, Amelia, VIM.

Il faudrait surtout regarder les algorithmes de séries chronologiques. Une approche simple et pourtant bonne pour votre exemple serait une interpolation linéaire.

library(imputeTS)   
x <- c(1,8,12,14,NA,NA,19)
na.interpolation(x)

Voici la sortie pour une interpolation linéaire:

[1]  1.00000  8.00000 12.00000 14.00000 15.66667 17.33333 19.00000

C'est probablement un meilleur résultat que la moyenne.

Il existe également des méthodes de séries chronologiques plus avancées dans le package imputeTS (par moi) ou une dans le package de prévisions (par Rob Hyndman)

— stats0007
source