J'ai un grand ensemble de vecteurs de fonctionnalités que j'utiliserai pour attaquer un problème de classification binaire (en utilisant scikit learn en Python). Avant de commencer à penser à l'imputation, je voudrais essayer de déterminer à partir des parties restantes des données si les données manquantes sont «manquantes au hasard» ou manquantes pas au hasard.
Quelle est la meilleure façon d'aborder cette question?
Il s'avère que la meilleure question est de demander si les données «manquent complètement au hasard» ou non. Quelle est la meilleure façon de procéder?