J'ai trois fonctionnalités que j'utilise pour résoudre un problème de classification. À l'origine, ces caractéristiques produisaient des valeurs booléennes, ce qui m'a permis d'évaluer leur redondance en examinant à quel point les ensembles de classifications positives et négatives se chevauchaient. Maintenant, j'ai étendu les fonctionnalités pour produire des valeurs réelles (scores) à la place, et je voudrais analyser à nouveau leur redondance, mais je ne sais absolument pas comment procéder. Quelqu'un peut-il me fournir un pointeur ou une idée sur la façon de procéder?
Je sais que cette question est très vague, c'est parce que je ne connais pas très bien les statistiques. Donc, si vous n'avez pas de réponse pour moi, vous avez peut-être des questions qui peuvent m'aider à mieux me comprendre.
Edit: je suis en train de parcourir Wikipedia sur le sujet, j'ai le sentiment que ce que je veux, c'est un coefficient de corrélation, mais je ne sais toujours pas si c'est la bonne approche, et lequel des nombreux coefficients disponibles est approprié.
Edit 2: Dans le cas booléen, j'ai d'abord créé pour chaque fonctionnalité l'ensemble d'échantillons pour lequel c'était vrai. Ensuite, la corrélation entre deux caractéristiques était la taille de l'intersection de ces ensembles sur la taille de l'union de ces ensembles. Si cette valeur est 1, ils sont complètement redondants, car toujours les mêmes. Si c'est 0, ils ne sont jamais les mêmes.