Je suis frappé par un problème apparemment facile, mais je n'ai pas trouvé de solution appropriée depuis plusieurs semaines maintenant.
J'ai beaucoup de données de sondages / enquêtes (des dizaines de milliers de répondants, disons 50 000 par ensemble de données), provenant de quelque chose que j'espère s'appeler une enquête de conception complexe avec des poids, une stratification, un routage spécifique, etc. Pour chaque répondant, il existe des centaines de variables telles que les données démographiques (âge, région ...) puis principalement des variables binaires (tout au plus catégoriques).
Je viens plus de l'informatique / de l'apprentissage machine et j'ai dû apprendre beaucoup sur les statistiques et la méthodologie des enquêtes classiques . Maintenant, je veux appliquer l'apprentissage automatique classique à ces données (par exemple, prédire certaines valeurs manquantes pour un sous-ensemble de répondants - essentiellement une tâche de classification). Mais, maintenez et voyez, je ne peux pas trouver un moyen approprié de le faire. Comment dois-je intégrer ces strates, ces pondérations ou ces routages (comme: si la question 1 a répondu avec l'option 2, posez la question 3, sinon sautez-la)?
Le simple fait d'appliquer mes modèles (arbres, régression logistique, SVM, XGBoost ...) semble dangereux (et ils échouent dans la plupart des cas), car ils supposent généralement que les données proviennent d'un simple échantillon aléatoire ou iid.
Beaucoup de méthodes ont au moins des poids, mais cela n'aide pas beaucoup. De plus, il n'est pas clair comment je devrais combiner les classes déséquilibrées et les poids donnés par la définition de l'enquête ensemble, sans parler de ces éléments de stratification. De plus, les modèles de résultats doivent être bien calibrés - la distribution prévue doit être très proche de celle d'origine. Une bonne performance de prédiction n'est pas le seul critère ici. J'ai changé la métrique d'optimisation pour en tenir compte également (comme la distance de la distribution prédite par rapport à la vraie distribution + précision / MCC) et cela a aidé dans certains cas, à paralyser les performances dans d'autres.
Existe-t-il un moyen canonique de résoudre ce problème? Cela me semble être un domaine de recherche très sous-estimé. De nombreuses enquêtes de l'OMI pourraient bénéficier du pouvoir de ML, mais il n'y a pas de sources. Comme ce sont deux mondes qui n'interagissent pas l'un avec l'autre.
Ce que j'ai trouvé jusqu'à présent:
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
Par exemple, je ne connais encore qu'un seul article (Toth et Eltinge, 2011) sur la façon de faire des arbres de régression lorsque vos données proviennent d'une enquête par sondage complexe.
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
Dans une méta-analyse récente de 150 articles de recherche échantillonnés analysant plusieurs enquêtes avec des plans d'échantillonnage complexes, il a été constaté que les erreurs analytiques causées par l'ignorance ou l'utilisation incorrecte des caractéristiques de plan d'échantillonnage complexes étaient fréquentes.
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
Questions liées au CV, mais aucune d'entre elles ne contient de réponse utilisable sur la façon d'aborder cela (soit aucune réponse, pas ce que je demande, soit des recommandations trompeuses):
- Analyse appariée avec des données d'enquête complexes
- Apprentissage automatique avec des données d'enquête pondérées / complexes
- Validation croisée après LASSO dans des données d'enquête complexes
- Séparation en régression logistique dans une enquête complexe?
- Ajustement de modèles multiniveaux à des données d'enquête complexes dans R