Disons que nous avons un échantillon de deux populations: A
et B
. Supposons que ces populations sont constituées d'individus et nous choisissons de décrire les individus en termes de caractéristiques. Certaines de ces caractéristiques sont catégoriques (par exemple, conduisent-elles au travail?) Et certaines sont numériques (par exemple, leur hauteur). Appelons ces fonctionnalités: . Nous collectons des centaines de ces fonctionnalités (par exemple n = 200), supposons pour plus de simplicité, sans erreur ni bruit sur tous les individus.
Nous supposons que les deux populations sont différentes. Notre objectif est de répondre aux deux questions suivantes:
- Sont-ils réellement différents?
- Qu'est-ce qui est significativement différent entre eux?
Des méthodes comme les arbres de décision (par exemple les forêts aléatoires) et l'analyse de régression linéaire peuvent aider. Par exemple, on pourrait examiner l'importance des caractéristiques dans les forêts aléatoires ou les coefficients ajustés dans la régression linéaire pour comprendre ce qui peut distinguer ces groupes et explorer les relations entre les caractéristiques et les populations.
Avant de suivre cette voie, je veux avoir une idée de mes options ici, ce qui est bon et moderne vs mauvaise pratique. Veuillez noter que mon objectif n'est pas la prédiction en soi, mais de tester et de trouver des différences significatives entre les groupes.
Quelles sont certaines approches fondées sur des principes pour résoudre ce problème?
Voici quelques préoccupations que j'ai:
Des méthodes comme l'analyse de régression linéaire peuvent ne pas répondre complètement (2), non? Par exemple, un ajustement unique peut aider à trouver certaines différences, mais pas toutes les différences significatives. Par exemple, la multi-colinéarité peut nous empêcher de trouver comment toutes les fonctionnalités varient d'un groupe à l'autre (au moins sur un seul ajustement). Pour la même raison, je m'attendrais à ce que l'ANOVA ne puisse pas non plus fournir une réponse complète à (2).
On ne sait pas exactement comment une approche prédictive répondrait (1). Par exemple, quelle fonction de perte de classification / prédiction devrions-nous minimiser? Et comment tester si les groupes sont ou non significativement différents une fois que nous avons un ajustement? Enfin, je crains que la réponse à laquelle je parviens (1) dépende de l'ensemble particulier de modèles de classification que j'utilise.