Vous avez raison sur les deux points. Voir la page de Frank Harrell ici pour une longue liste de problèmes avec le binning des variables continues. Si vous utilisez quelques bacs, vous perdez beaucoup d'informations dans les prédicteurs; si vous en utilisez beaucoup, vous avez tendance à insérer des mouvements dans ce qui devrait être une relation douce, sinon linéaire, et utiliser beaucoup de degrés de liberté. Il est généralement préférable d’utiliser des polynômes ( ) ou des splines (polynômes par morceaux se joignant régulièrement) pour les prédicteurs. Le binning n’est vraiment une bonne idée que lorsque vous vous attendez à une discontinuité dans la réponse aux points de coupure (disons que la température atteint son maximum, ou l’âge légal pour conduire) et que la réponse est neutre entre eux ..x+x2+…
La valeur? Eh bien, c'est un moyen rapide et facile de prendre en compte la courbure sans avoir à y penser, et le modèle pourrait bien suffire à son utilisation. Cela a tendance à fonctionner correctement lorsque vous avez beaucoup de données comparées au nombre de prédicteurs, chaque prédicteur étant divisé en plusieurs catégories; dans ce cas, dans chaque bande de prédicteur, la plage de réponse est petite et la réponse moyenne est déterminée avec précision.
[Modifier en réponse aux commentaires:
Parfois, des seuils standard sont utilisés dans un champ pour une variable continue: par exemple, en médecine, les mesures de pression artérielle peuvent être classées comme basses, moyennes ou élevées. Il peut y avoir de nombreuses bonnes raisons d'utiliser ces seuils lorsque vous présentez ou appliquez un modèle. En particulier, les règles de décision reposent souvent sur moins d'informations que dans un modèle et doivent parfois être simples à appliquer. Mais cela ne veut pas dire que ces seuils sont appropriés pour regrouper les prédicteurs lorsque vous vous adaptez au modèle.
Supposons qu'une réponse varie continuellement avec la pression artérielle. Si vous définissez un groupe d'hypertension artérielle comme un prédicteur dans votre étude, l'effet que vous estimez est la réponse moyenne par rapport à la pression artérielle des individus de ce groupe. Ce n'est pasune estimation de la réponse moyenne des personnes hypertendues dans la population en général ou des personnes appartenant au groupe des hypertendus participant à une autre étude, à moins que vous ne preniez des mesures spécifiques pour y parvenir. Si la distribution de l’hypertension artérielle dans la population générale est connue, comme je l’imagine, vous ferez mieux de calculer la réponse moyenne des personnes souffrant d’hypertension artérielle dans la population générale en vous basant sur les prédictions du modèle avec l’hypertension artérielle. variable continue. Le binning brut rend votre modèle approximativement généralisable.
En général, si vous avez des questions sur le comportement de la réponse entre les seuils, ajustez le meilleur modèle possible, puis utilisez-le pour y répondre.]
[En ce qui concerne la présentation; Je pense que c'est un hareng rouge:
(1) La facilité de présentation ne justifie pas de mauvaises décisions de modélisation. (Et dans les cas où le binning est une bonne décision de modélisation, il n'a pas besoin de justification supplémentaire.) Cela va sûrement de soi. Personne ne recommande jamais de supprimer une interaction importante d'un modèle, car il est difficile à présenter.
(2) Quel que soit le modèle qui vous convient, vous pouvez toujours présenter ses résultats en termes de catégories si vous pensez que cela facilitera l'interprétation. Bien que ...
(3) Il faut être prudent pour vous assurer qu'il ne contribue pas mal -interprétation, pour les raisons exposées ci - dessus.
(4) Il n'est en fait pas difficile de présenter des réponses non linéaires. Opinion personnelle, clairement, et les publics diffèrent; mais je n'ai jamais vu un graphique de valeurs de réponse ajustées par rapport à des valeurs de prédicteur qui pose des problèmes à quelqu'un simplement parce qu'il est courbe. Interactions, logites, effets aléatoires, multicolinéarité,… - tout cela est beaucoup plus difficile à expliquer.]
[Un point supplémentaire soulevé par @Roland est l'exactitude de la mesure des prédicteurs; Il suggère, je pense, que la catégorisation peut être appropriée si elles ne sont pas particulièrement précises. Le bon sens pourrait donner à penser que vous n'améliorer les choses en les re-disant encore moins précisément, et le bon sens serait bon: MacCallum et al (2002), « Sur la pratique de dichotomisation des variables quantitatives », méthodes psychologiques , 7 , 1, pages 17-19.]