Étudier les différences entre les populations

Disons que nous avons un échantillon de deux populations: Aet B. Supposons que ces populations sont constituées d'individus et nous choisissons de décrire les individus en termes de caractéristiques. Certaines de ces caractéristiques sont catégoriques (par exemple, conduisent-elles au travail?) Et certaines sont numériques (par exemple, leur hauteur). Appelons ces fonctionnalités: . Nous collectons des centaines de ces fonctionnalités (par exemple n = 200), supposons pour plus de simplicité, sans erreur ni bruit sur tous les individus. $X_1 \ldots X_n$

Nous supposons que les deux populations sont différentes. Notre objectif est de répondre aux deux questions suivantes:

Sont-ils réellement différents?
Qu'est-ce qui est significativement différent entre eux?

Des méthodes comme les arbres de décision (par exemple les forêts aléatoires) et l'analyse de régression linéaire peuvent aider. Par exemple, on pourrait examiner l'importance des caractéristiques dans les forêts aléatoires ou les coefficients ajustés dans la régression linéaire pour comprendre ce qui peut distinguer ces groupes et explorer les relations entre les caractéristiques et les populations.

Avant de suivre cette voie, je veux avoir une idée de mes options ici, ce qui est bon et moderne vs mauvaise pratique. Veuillez noter que mon objectif n'est pas la prédiction en soi, mais de tester et de trouver des différences significatives entre les groupes.

Quelles sont certaines approches fondées sur des principes pour résoudre ce problème?

Voici quelques préoccupations que j'ai:

Des méthodes comme l'analyse de régression linéaire peuvent ne pas répondre complètement (2), non? Par exemple, un ajustement unique peut aider à trouver certaines différences, mais pas toutes les différences significatives. Par exemple, la multi-colinéarité peut nous empêcher de trouver comment toutes les fonctionnalités varient d'un groupe à l'autre (au moins sur un seul ajustement). Pour la même raison, je m'attendrais à ce que l'ANOVA ne puisse pas non plus fournir une réponse complète à (2).
On ne sait pas exactement comment une approche prédictive répondrait (1). Par exemple, quelle fonction de perte de classification / prédiction devrions-nous minimiser? Et comment tester si les groupes sont ou non significativement différents une fois que nous avons un ajustement? Enfin, je crains que la réponse à laquelle je parviens (1) dépende de l'ensemble particulier de modèles de classification que j'utilise.

— Amelio Vazquez-Reina
source

Réponses:

Pensons le problème comme suit.

Dites et est une variable binaire représentant la population: signifie la première population, signifie la deuxième population. L'hypothèse nulle peut s'exprimer de plusieurs manières équivalentes: $X=(X_1,X_2,..X_n)$ $Y$ $Y=0$ $Y=1$

$H_0$ : les populations sont les mêmes
$H_0$ : la distribution de donnée est la même que la distribution de donnée $X$ $Y=0$ $X$ $Y=1$
$H_0$ : et sont indépendants $X$ $Y$
$H_0$ : pour toute fonction dans , et sont indépendants $f$ $\{0,1\}$ $f(X)$ $Y$

Je ne sais pas grand-chose sur les forêts aléatoires, mais elles peuvent être considérées comme un prédicteur polyvalent qui évite le sur-ajustement. Si nous les idéalisons un peu: c'est quelque chose capable de détecter tout type de relation entre et tout type de fonctionnalités sans sur-ajustement. $Y$ $X$

Il est possible d'essayer quelque chose en fonction de cela. Divisez l'ensemble de données d'origine en un ensemble d'apprentissage et un ensemble de test. Alors:

former une forêt aléatoire qui prédit partir de sur l'ensemble d'entraînement. $f$ $Y$ $X$
faire un test d'indépendance chi carré simple (avec risque ) entre et sur l'ensemble de test $\alpha$ $f(X)$ $Y$

Ce test est assez conservateur. Si la forêt aléatoire est une mauvaise méthode, au pire produisant un stupide , elle rejettera de toute façon avec une probabilité inférieure à (lorsque est vrai). Le sur-ajustement ne serait même pas un problème puisque nous utilisons un test et un ensemble d'entraînement. Cependant, la puissance du test dépend directement de l'intelligence de la méthode de la forêt aléatoire (ou de tout prédicteur utilisé). $f(X)$ $H_0$ $\alpha$ $H_0$

Notez que vous pouvez utiliser plusieurs prédicteurs possibles: comme une ancienne régression logistique simple, puis une régression logistique avec des caractéristiques croisées, puis quelques arbres de décision, puis une forêt aléatoire ... Mais si vous le faites, vous devez ajuster au nombre de tests pour éviter les "fausses découvertes". Voir: Réglage alpha pour plusieurs tests $\alpha$

— Benoit Sanchez
source

Merci Benoit (+1). Cela semble applicable à la question (1). Avez-vous des idées sur la façon d'aborder (2) cette approche ou une approche alternative?

— Amelio Vazquez-Reina

Comme l'a souligné DJohnson, la RF n'est pas interprétable. La régression logistique peut être (avec au moins des caractéristiques uniques). Cela dépend vraiment du prédicteur. En suivant une idée proche de RF, il est possible d'utiliser de nombreux arbres de décision (aléatoires) (avec un bien ajusté ), et d'afficher l'arbre avec la plus petite (= meilleure) valeur de p.

α

$\alpha$

— Benoit Sanchez

Merci. J'aime la suggestion d'ajuster des DT aléatoires et de trouver ceux avec le résultat le plus significatif dans un test de type chi carré. Je suppose que vous faites référence aux corrections de Bonferroni lorsque vous avez mentionné l'utilisation d'un bien ajusté . En quoi cela serait-il différent d'utiliser des RF et de tester chaque arbre?

α

$\alpha$

— Amelio Vazquez-Reina

De plus, mon espoir avec les RF est d'identifier les fonctionnalités qui capturent les différences (c'est-à-dire obtenir au moins une réponse partielle à (2)). Ils ne sont pas idéaux pour l'interprétabilité (bien que je suppose que l'on pourrait le faire en limitant leur hauteur). Dans les deux cas, la même chose peut être dite à propos des DT, n'est-ce pas? Je veux juste bien comprendre votre commentaire.

— Amelio Vazquez-Reina

Oui, je parle de Bonferroni. Avec RF, vous créez un seul prédicteur en faisant la moyenne de nombreux DT. Ensuite, vous effectuez un seul test avec cette moyenne, pas chacun des DT, ce qui entraîne risque . Avec plusieurs DT, vous effectuez tests entraînant un risque de (sauf si vous utilisez Bonferroni). Cela doit être considéré comme un test multiple alors que (une seule) RF moyenne de nombreux DT est un test unique.

α

$\alpha$

n

$n$

1 - (1 - α)^{n}

$1-(1-\alpha)^n$

— Benoit Sanchez

Vous ne dites pas combien de fonctionnalités sont disponibles dans les données. Peu, beaucoup, massifs? Peut-on supposer qu'il s'agit des mêmes caractéristiques entre les populations, toutes mesurées à l'aide des mêmes outils, méthodes et modalités? Sinon, vous avez un plus gros problème où un modèle de mesure des erreurs dans les variables peut fonctionner.

@benoitsanchez semble avoir répondu à la question # 1).

Wrt # 2), je ne suis pas sûr que les RF puissent aider. En utilisant un modèle plus formel tel que l'ANOVA unidirectionnelle appliquée à une entité à la fois, un test de la différence entre les populations pour les entités peut être développé. En résumant les résultats de ces tests, en fonction de l'ampleur du test ainsi que de sa signification, un profil descriptif de la façon dont les populations diffèrent selon les caractéristiques devient possible. Il s'agit d'une solution certes ad hoc et heuristique qui peut ne pas être suffisamment rigoureuse pour vos goûts, vos préférences et votre formation.

N'étant pas bon en notation de type Latex, permettez-moi de décrire simplement comment ces tests pourraient fonctionner: tout d'abord, construisez une sorte de boucle de macro qui passe par toutes les fonctionnalités, une fonctionnalité à la fois. À chaque passage de la boucle, la nouvelle fonctionnalité devient la cible ou DV avec X consistant en une variable fictive pour la population ainsi que toutes les variables de contrôle qui sont appropriées. Assurez-vous que les mêmes contrôles sont utilisés pour chaque fonctionnalité ainsi que que les données sous-jacentes sont exactement les mêmes pour toutes les ANOVA, éliminant ainsi les variations attribuables aux vicissitudes des échantillons de données finies. Agréger les valeurs du test F pour la variable fictive pour chaque entité. Cela fournira une métrique normalisée permettant une comparaison entre les fonctionnalités. Les tests F sont préférables aux bêtas ajustés puisque les bêtasne sont pas normalisés, étant exprimés dans l'unité et les devs standard de chaque caractéristique individuelle.

Votre dernier commentaire, "Je crains que la réponse à laquelle je reçois (1) dépende de l'ensemble particulier de modèles de classification / régression que j'utilise", est toujours vrai. Les réponses sont très susceptibles de varier en fonction du ou des modèles utilisés. C'est aussi l'expression d'un malaise communément observé chez les statisticiens plus fortement théoriques et de formation classique qui ne sont pas à l'aise avec ou qui ont du mal à reconnaître la nature non déterministe de la modélisation statistique appliquée. Un excellent antidote pour ces symptômes est le récent livre d'Efron et Hastie, Computer Age Statistical Inference . Ils font entrer la modélisation statistique dans le 21e siècle, une ère de science des données et d'apprentissage automatique, en reconnaissant franchement la nature itérative, approximative et heuristique de tousmodèles possédant un terme d'erreur. Il n'est pas nécessaire d'être bayésien pour reconnaître la vérité inhérente à cette observation. La leur est une perspective rafraîchissante qui diffère du déterminisme rigide de la pratique statistique classique du 20e siècle qui a levé la main lorsque, par exemple, une matrice de produits croisés ne s'inversait pas et / ou qu'une hypothèse de modèle pédant n'était pas remplie.

— Mike Hunter
source

Merci @DJohnson. Lorsque vous avez dit "agréger les valeurs du test F pour la variable fictive pour chaque entité", que voulez-vous dire exactement? c'est-à-dire que feriez-vous exactement avec ce résultat? Aussi, qu'entendez-vous par bêtas dans ce contexte? Enfin, cette approche itérative ne se limiterait-elle à aucune interaction? Par exemple, en utilisant l'exemple original, que se passe-t-il s'il y a une différence significative dans la «taille des personnes qui se rendent au travail en voiture»?

— Amelio Vazquez-Reina

Aussi, pourquoi voudriez-vous procéder à une séquence de tests ANOVA unidirectionnels au lieu de faire de l'ANOVA multidirectionnelle?

— Amelio Vazquez-Reina

Bonnes questions. En termes de profil descriptif résultant, je pensais simplement enregistrer le test F et les valeurs de signification ou p associées pour chaque caractéristique, puis les classer de haut en bas. Étant donné que le test F est un rapport de khi-deux et n'est donc pas symétrique, les moyennes de population pourraient être ajoutées au rapport pour aider à comprendre la directionnalité des résultats. Alternativement, un test t pourrait aider à cette compréhension. Ce profil aiderait à comprendre à la fois l'ampleur ou la force des caractéristiques en fonction des populations sous-jacentes.

— Mike Hunter

Comme indiqué, des variables de contrôle doivent être ajoutées le cas échéant. Celles-ci pourraient inclure des interactions, pour autant qu'elles soient systématiquement utilisées dans tous les modèles. L'introduction de facteurs supplémentaires étendrait, par définition, le modèle de la régression unidirectionnelle à la régression multiple ou à l'ANOVA.

— Mike Hunter