J'ai donc lu quelques articles sur les raisons pour lesquelles le binning doit toujours être évité. Une référence populaire pour cette affirmation est ce lien .
L'évasion principale étant que les points de binning (ou points de coupure) sont plutôt arbitraires ainsi que la perte d'informations qui en résulte, et que les splines doivent être préférées.
Cependant, je travaille actuellement avec l'API Spotify, qui a un tas de mesures de confiance continues pour plusieurs de leurs fonctionnalités.
En regardant une caractéristique, "l'instrumentalité", les références indiquent:
Prédit si une piste ne contient pas de voix. Les sons «Ooh» et «aah» sont traités comme instrumentaux dans ce contexte. Les morceaux de rap ou de mots parlés sont clairement «vocaux». Plus la valeur instrumentale est proche de 1,0, plus la piste ne contient aucun contenu vocal. Les valeurs supérieures à 0,5 sont censées représenter des pistes instrumentales , mais la confiance est plus élevée lorsque la valeur approche de 1,0.
Étant donné la distribution très asymétrique de mes données (environ 90% des échantillons sont à peine supérieurs à 0, j'ai trouvé judicieux de transformer cette fonctionnalité en deux fonctionnalités catégorielles: "instrumentale" (tous les échantillons avec une valeur supérieure à 0,5) et "non_instrumental" "(pour tous les échantillons dont la valeur est inférieure à 0,5).
Est-ce mal? Et quelle aurait été l'alternative, alors que presque toutes mes données (continues) tournent autour d'une seule valeur? D'après ce que je comprends des splines, elles ne fonctionneraient pas non plus avec les problèmes de classification (ce que je fais).