J'ai de grandes données d'enquête, une variable de résultat binaire et de nombreuses variables explicatives, y compris binaire et continue. Je construis des ensembles de modèles (expérimentant à la fois le GLM et le GLM mixte) et j'utilise des approches théoriques de l'information pour sélectionner le modèle supérieur. J'ai soigneusement examiné les explications (à la fois continues et catégoriques) pour les corrélations et j'utilise uniquement celles du même modèle qui ont un coefficient Pearson ou Phicorr inférieur à 0,3. Je voudrais donner à toutes mes variables continues une chance équitable de concourir pour le modèle haut de gamme. D'après mon expérience, la transformation de ceux qui en ont besoin en fonction de l'inclinaison améliore le modèle auquel ils participent (AIC inférieur).
Ma première question est: cette amélioration est-elle parce que la transformation améliore la linéarité avec le logit? Ou est-ce que la correction du biais améliore l'équilibre des variables explicatives d'une manière ou d'une autre en rendant les données plus symétriques? Je souhaite avoir compris les raisons mathématiques derrière cela, mais pour l'instant, si quelqu'un pouvait expliquer cela en termes simples, ce serait formidable. Si vous avez des références que je pourrais utiliser, je l'apprécierais vraiment.
De nombreux sites Internet affirment que la normalité n'étant pas une hypothèse de régression logistique binaire, ne transformez pas les variables. Mais je pense qu'en ne transformant pas mes variables, je laisse certains désavantagés par rapport aux autres et cela pourrait affecter ce qu'est le modèle supérieur et changer l'inférence (enfin, ce n'est généralement pas le cas, mais dans certains ensembles de données, c'est le cas). Certaines de mes variables fonctionnent mieux lorsqu'elles sont transformées en logarithme, certaines lorsqu'elles sont au carré (direction de décalage différente) et d'autres non transformées.
Quelqu'un pourrait-il me donner une ligne directrice sur quoi faire attention lors de la transformation des variables explicatives de la régression logistique et sinon, pourquoi?