Je pense à un problème qui consiste à prédire le journal (dépenses) d'un client à l'aide d'une régression linéaire.
Je réfléchis aux fonctionnalités à utiliser en entrée et je me demande si ce serait correct d'utiliser le centile d'une variable comme entrées.
Par exemple, je pourrais utiliser les revenus de l'entreprise comme intrant. Ce que je me demande, c'est si je pourrais utiliser le centile de revenus de l'entreprise à la place.
Un autre exemple serait un classificateur d'industrie catégorique (SCIAN) - si je regardais les dépenses médianes par code SCIAN et attribuais ensuite chaque code SCIAN à un `` centile du SCIAN '', serait-ce une variable explicative valide que je pourrais utiliser?
Vous vous demandez simplement s'il y a des problèmes à connaître lors de l'utilisation des centiles? Est-il à certains égards équivalent à un type de mise à l'échelle des fonctionnalités?