Ma question est la suivante: devons-nous normaliser l'ensemble de données pour nous assurer que toutes les variables ont la même échelle, entre [0,1], avant d'ajuster la régression logistique. La formule est la suivante:
Mon ensemble de données a 2 variables, elles décrivent la même chose pour deux canaux, mais le volume est différent. Supposons que ce soit le nombre de visites de clients dans deux magasins, vous devez déterminer si un client achète. Parce qu'un client peut visiter les deux magasins, ou deux fois le premier magasin, un deuxième magasin avant de faire un achat. mais le nombre total de visites de clients pour le premier magasin est 10 fois supérieur à celui du deuxième magasin. Quand je corresponds cette régression logistique, sans normalisation, coef(store1)=37, coef(store2)=13
; si je standardise les données, alors coef(store1)=133, coef(store2)=11
. Quelque chose comme ça. Quelle approche a plus de sens?
Et si j'insère un modèle d'arbre de décision? Je sais que les modèles d’arborescence n’ont pas besoin de normalisation car le modèle lui-même l’ajustera d’une manière ou d’une autre. Mais vérifier avec vous tous.
C
changes. So you need to choose C
after standardising the data.