J'ai un ensemble de données avec environ 5 000 caractéristiques / covariables souvent corrélées et une réponse binaire. Les données m'ont été données, je ne les ai pas collectées. J'utilise Lasso et boosting de gradient pour construire des modèles. J'utilise la validation croisée imbriquée itérée. Je rapporte les 40 coefficients (absolus) les plus importants de Lasso et les 40 caractéristiques les plus importantes des arbres boostés par le gradient (il n'y avait rien de spécial à propos de 40; cela semblait juste être une quantité raisonnable d'informations). Je rapporte également la variance de ces quantités sur les plis et les itérations de CV.
Je réfléchis aux caractéristiques "importantes", ne faisant aucune déclaration sur les valeurs p ou la causalité ou quoi que ce soit, mais considérant plutôt ce processus comme une sorte - quoique imparfaite et aléatoire - un aperçu d'un phénomène.
En supposant que j'ai fait tout cela correctement (par exemple, exécuté la validation croisée correctement, mis à l'échelle pour le lasso), cette approche est-elle raisonnable? Y a-t-il des problèmes avec, par exemple, les tests d'hypothèses multiples, l'analyse post hoc, les fausses découvertes? Ou d'autres problèmes?
Objectif
Prédire la probabilité d'un événement indésirable
- Avant tout, estimez la probabilité avec précision
- Plus mineur - à titre de vérification de la santé mentale, mais aussi pour peut-être révéler de nouveaux prédicteurs qui pourraient être étudiés plus avant, inspecter les coefficients et les importations comme mentionné ci-dessus.
Consommateur
- Les chercheurs intéressés à prédire cet événement et les personnes qui finissent par devoir réparer l'événement s'il se produit
Ce que je veux qu'ils en retirent
Donnez-leur la possibilité de prédire l'événement, s'ils souhaitent répéter le processus de modélisation, comme décrit, avec leurs propres données.
Faites la lumière sur des prédicteurs inattendus. Par exemple, il peut s'avérer que quelque chose de complètement inattendu est le meilleur prédicteur. Les modélisateurs ailleurs pourraient donc envisager plus sérieusement ledit prédicteur.