Est-il possible de supprimer des observations manquantes?

J'ai un ensemble de données qui examine les demandes d'immigration et les acceptations de visa (octroi de visas). Les taux sont calculés pour les demandes de visa «acceptées» et «rejetées».

Cependant, l'ensemble de données contient également des valeurs pour les cas fermés. Normalement, c'est lorsque l'immigrant a cessé de se présenter aux rendez-vous, a migré ailleurs ou est décédé. Étant donné que ces chiffres ne sont pas utilisés lors du calcul des taux, les taux apparaissent souvent comme manquants (car les cas n'ont été ni acceptés ni rejetés).

Cela étant dit, si les seuls cas de cette année étaient «autrement clos», sera-t-il possible de laisser tomber ces observations? Une partie du problème que j'ai est que les années aléatoires dans le jeu de données seront supprimées, car les seules décisions pour cette année ont été fermées.

Les cas autrement fermés sont très arbitraires et, comme je l'ai mentionné, sont très probablement des cas où l'immigrant a migré ailleurs et a probablement utilisé le premier pays comme lieu de transit temporaire. Les données ne disent pas précisément pourquoi les immigrants sont partis, pourquoi ils ont été fermés, etc. Je ne sais pas vraiment comment gérer ces valeurs manquantes. Je ne pense pas que les méthodes d'imputation standard fonctionneraient ici, en raison des calculs de taux (mais je peux me tromper).

missing-data

— EJ16
source

Vous ne les laisseriez pas simplement tomber. Vous pouvez appliquer une imputation multiple. Voir l'article et les livres co-écrits par Donald Rubin et Rod Little.

— Michael R. Chernick

L'imputation multiple suppose-t-elle que les données manquent au hasard? Ces données sont-elles manquantes au hasard? MI me décourage toujours un peu, et c'est une des raisons.

— EJ16

Vous soulevez un bon point. Ils classent les données manquantes comme 1) complètement manquantes au hasard, 2) manquantes au hasard et 3) non aléatoires. Ces catégories sont expliquées dans leurs livres. Si vous lisez leur travail et comprenez vos données, vous devriez pouvoir appliquer correctement la méthode. Vous avez trois situations: un immigrant a cessé de se présenter, est allé ailleurs ou est décédé. Cela ne semble pas aléatoire, mais vous pouvez voir en fonction de ce qui leur est arrivé la probabilité d'acceptation.

— Michael R. Chernick

Dans les cas où vous ne savez pas si vos données sont MCAR, MAR ou MNAR, il peut être utile de considérer les tracés de données manquants. Voici un exemple de construction d'un tel tracé à l'aide de ggplot2 et du package de statistiques R.

— Wes

Vous ne pouvez pas inclure une troisième catégorie, "cas abandonné", dans vos données? Peut-être qu'une analyse différente la traitera-t-elle différemment? Le simple fait de laisser tomber semble étrange.

— kjetil b halvorsen

Réponses:

La distinction importante n'est pas dans votre cas la distinction entre MCAR, MAR et NMAR, mais entre les valeurs réelles manquantes et les valeurs mécaniques manquantes. Les vraies valeurs manquantes sont des valeurs qui existent, mais pour une raison quelconque, elles n'ont pas été enregistrées. Les valeurs mécaniques manquantes n'existent pas, mais la structure rectangulaire d'un ensemble de données nous oblige à lui donner une valeur, par exemple le statut de grossesse si votre ensemble de données comprend également des hommes. Les techniques d'imputation sont conçues pour les vraies valeurs manquantes. Votre exemple est un cas de valeurs mécaniques manquantes; la décision n'a pas été prise, donc sa valeur n'existe pas. Si une partie importante des migrants partent, c'est une caractéristique importante du processus de migration, et l'imputation de ces valeurs masque cette caractéristique.

— Maarten Buis
source

Contrairement à la grossesse masculine, cependant, il aurait pu y avoir une décision d'acceptation / de rejet dans les cas où des personnes sont décédées, sont parties ou ont cessé de se présenter. Dans l'analyse de survie, ceux-ci pouvaient être traités intelligemment comme des cas censurés, à condition que la censure ne soit pas informative. Je me demande s'il existe un moyen d'incorporer le statut censuré dans l'analyse de cette affaire.

— EdM

Maarten, merci beaucoup. Ca a du sens. J'ai aussi pensé que c'était peut-être une forme de censure (par exemple la mort de migrants). Mais je ne comprends pas ce que «l'imputation de ces valeurs cache cette caractéristique». Cela signifie-t-il donc que l'imputation multiple ne devrait pas être effectuée? Si oui, quelles sont les autres options? Je me gratte toujours la tête.

— EJ16

Peut-être, et ceux-ci ont été enregistrés comme acceptés / refusés. Mais il y a des années où aucune décision n'a été prise, et les seules décisions qui ont été prises ont été «autrement fermées». C'est donc la partie qui me bloque en ce moment.

— EJ16

Maarten, tant pis. J'ai relu la réponse, et je comprends maintenant que MI ne suffirait pas pour cela. Cela montre actuellement qu'environ la moitié des dossiers sont autrement clos et donc manquants. Je suppose que ma question est toujours de savoir quoi faire avec ces cas, car la procédure standard n'est pas de les inclure dans les calculs de taux.

— EJ16

+1 Bonne réponse. Il convient de noter que les MV «mécaniques» sont plus communément appelés «zéros structurels» ou valeurs nulles, du moins dans la littérature américaine.

— Mike Hunter

Il est clair qu'un mélange d'au moins 2 processus de disparité différents.

Personnes décédées de procédures sans lien avec les causes / abandon / etc. pour des raisons autres que l'issue probable de la procédure. Ici, une imputation sous MAR est logique (si vous pouvez identifier clairement les cas).
Les gens qui abandonnent / se retirent / abandonnent parce qu'ils ne respectent pas certaines règles et / ou pensent qu'ils ne réussiront probablement pas ou que c'est trop compliqué. Ici, cela dépend si vous pouvez, à partir des données dont vous disposez, évaluer leurs chances si elles avaient continué. Si vous pouvez une hypothèse MAR est très bien, sinon vous avez une situation MNAR difficile.

Que faire à propos de MNAR est difficile. Supposer que de tels cas n'ont pas réussi peut être un peu extrême (ou très approprié, après tout, ils n'ont pas réussi). Ou imputez sous MAR et essayez de rendre ces cas moins réussis jusqu'à ce que vous atteigniez 0% et envisagiez cette plage de valeurs.

— Björn
source

En effet. Au début, je pensais que les données étaient MNAR. Cependant, je pense que Maarten a raison. Seulement, cela m'a laissé un peu plus confus quant à ce qu'il faut faire avec les zéros structurels.

— EJ16