Un certain nombre de sources suggèrent qu'il existe de nombreuses conséquences négatives de la discrétisation (catégorisation) des variables continues avant l'analyse statistique (échantillon de références [1] - [4] ci-dessous).
Inversement [5] suggère que certaines techniques d'apprentissage automatique sont connues pour produire de meilleurs résultats lorsque les variables continues sont discrétisées (notant également que les méthodes de discrétisation supervisées fonctionnent mieux).
Je suis curieux de savoir s'il existe des avantages ou des justifications largement acceptées pour cette pratique d'un point de vue statistique?
En particulier, y aurait-il une justification pour discrétiser des variables continues dans une analyse GLM?
[1] Royston P, DG Altman, Sauerbrei W. Dichotomisation de prédicteurs continus en régression multiple: une mauvaise idée. Stat Med 2006; 25: 127-41
[2] Brunner J, Austin PC. Inflation du taux d'erreur de type I en régression multiple lorsque des variables indépendantes sont mesurées avec erreur. La Revue canadienne de statistique 2009; 37 (1): 33-46
[3] Irwin JR, McClelland GH. Conséquences négatives de la dichotomisation de variables prédictives continues. Journal of Marketing Research 2003; 40: 366–371.
[4] Harrell Jr FE. Problèmes causés par la catégorisation des variables continues. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Consulté le 6.9.2004
[5] Kotsiantis, S.; Kanellopoulos, D. "Techniques de discrétisation: une enquête récente". GESTS International Transactions on Computer Science and Engineering 32 (1): 47–58.