- Lors de la dichotomisation des variables, quelles informations sont perdues dans le processus?
- Comment une dichotomisation aide-t-elle dans les analyses?
Réponses:
Quelles informations sont perdues: cela dépend de la variable. En général, en dichotomisant, vous affirmez qu'il existe une ligne droite d'effet entre une variable et une autre. Par exemple, envisagez une mesure continue de l'exposition à un polluant dans une étude sur le cancer. Si vous le dichotomisez en «haut» et «bas», vous affirmez que ce sont les deux seules valeurs qui comptent. Il existe un risque de cancer élevé et il y en a un faible. Mais que se passe-t-il si le risque augmente régulièrement pendant un certain temps, puis s'aplatit, puis augmente à nouveau avant de finalement atteindre des valeurs élevées? Tout cela est perdu.
Ce que vous gagnez: c'est plus facile. Les variables dichotomiques sont souvent beaucoup plus faciles à traiter statistiquement. Il y a des raisons de le faire - si une variable continue tombe en deux groupes clairs de toute façon , mais j'ai tendance à éviter la dichotomisation à moins que ce soit une forme naturelle de la variable en premier lieu. Il est souvent utile aussi que votre champ dichotomise les choses de toute façon pour avoir une forme dichotomisée d'une variable. Par exemple, beaucoup considèrent le nombre de cellules CD4 inférieur à 400 comme un seuil critique pour le VIH. En tant que tel, j'aurais souvent une variable 0/1 pour Au-dessus / En dessous de 400, bien que je conserverais également la variable de compte CD4 continue. Cela permet de mettre en cohérence votre étude avec les autres.
Je ne suis pas d'accord avec Peter. Bien que la division d'une variable continue en catégories soit souvent beaucoup plus judicieuse qu'une dichotomisation brute, je suis plutôt opposé à la catégorisation quantile. De telles catégorisations sont très difficiles à donner des interprétations significatives. Je pense que votre première étape devrait être de voir s'il existe une catégorisation biologiquement ou cliniquement bien supportée, et ce n'est qu'une fois ces options épuisées que vous devez utiliser des quantiles.
La dichotimisation ajoute une pensée magique à l'analyse des données. C'est très rarement une bonne idée.
Voici un article de Royston, Altman et Sauerbrei sur quelques raisons pour lesquelles c'est une mauvaise idée.
Mes propres pensées: si vous dichotomisez une variable dépendante, par exemple, le poids de naissance à 2,5 kg (cela se fait tout le temps), alors vous traitez les bébés nés à 2,49 kg comme ceux nés à 1,5 kg et les bébés nés à 2,51 kg tout comme ceux qui font 3,5 kg. Cela n'a pas de sens.
Une meilleure alternative est souvent la régression quantile. J'ai écrit à ce sujet pour NESUG récemment. Ce papier est ici
Une exception à ce qui précède est lorsque les catégories sont motivées de manière substantielle; par exemple, si vous travaillez avec un comportement de conduite, il sera judicieux de classer en fonction de l'âge légal pour conduire.
J'ai aimé et soutenu les réponses de @ Epigrad et @ Peter. Je voulais juste ajouter que la variable d'intervalle de binning en une variable binaire rend la variable (potentiellement) métrique juste ordinale. Avec une variable binaire, il est incorrect de calculer la moyenne ou la variance (malgré le fait que certaines personnes le font), et, comme je l'ai noté ailleurs , certaines analyses multivariées deviennent théoriquement ou logiquement inapplicables. Par exemple, je pense qu'il n'est pas correct d'utiliser le regroupement hiérarchique centroïde / Ward ou l'analyse factorielle avec des variables binaires.
Les clients de l'enquête nous obligent souvent à dichotomiser les variables à la sortie parce que penser en termes de quelques classes plutôt que d'un trait continu est plus simple, l'information semble moins brumeuse et (faussement) plus volumineuse.
Il existe cependant des cas où la dichotomisation peut être justifiée. Par exemple, en cas de forte bimodalité ou lorsque l'analyse (par exemple MAMBAC ou autre) montre la présence de 2 classes latentes.