J'essaie de trouver la corrélation entre une variable dichotomique et une variable continue.
D'après mon travail sur le terrain, j'ai trouvé que je devais utiliser un test t indépendant et la condition préalable est que la distribution de la variable doit être normale.
J'ai effectué le test de Kolmogorov-Smirnov pour tester la normalité et j'ai constaté que la variable continue n'est pas normale et est asymétrique (pour environ 4 000 points de données).
J'ai fait le test de Kolmogorov-Smirnov pour toute la gamme de variables. Dois-je les diviser en groupes et faire le test? C'est-à-dire, si j'ai risk level
( 0
= pas risqué, 1
= risqué) et des taux de cholestérol, dois-je alors:
Divisez-les en deux groupes, comme
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Les prendre ensemble et appliquer le test? (Je l'ai effectué sur l'ensemble de données uniquement.)
Après cela, quel test dois-je faire s'il n'est toujours pas normal?
EDIT: Le scénario ci-dessus était juste une description que j'ai essayé de fournir pour mon problème. J'ai un ensemble de données qui contient plus de 1000 variables et environ 4000 échantillons. Ils sont de nature continue ou catégorique. Ma tâche est de prédire une variable dichotomique basée sur ces variables (peut-être trouver un modèle de régression logistique). J'ai donc pensé que l'enquête initiale impliquerait de trouver la corrélation entre dichotomique et une variable continue.
J'essayais de voir comment la distribution des variables est et j'ai donc essayé de passer au test t. Ici, j'ai trouvé la normalité comme un problème. Le test de Kolmogorov-Smirnov a donné une valeur de signification de 0,00 dans la plupart de ces variables.
Dois-je assumer la normalité ici? L'asymétrie et le kurtosis de ces variables montrent également que les données sont asymétriques (> 0) dans presque tous les cas.
Selon la note donnée ci-dessous, j'étudierai davantage la corrélation point-bisériale. Mais concernant la distribution des variables, je ne suis toujours pas sûr.