J'essaie d'appliquer l'idée d'information mutuelle à la sélection des fonctionnalités, comme décrit dans ces notes de cours (à la page 5).
Ma plateforme est Matlab. Un problème que je trouve lors du calcul d'informations mutuelles à partir de données empiriques est que le nombre est toujours biaisé vers le haut. J'ai trouvé environ 3 à 4 fichiers différents pour calculer l'IM sur Matlab Central et ils donnent tous de grands nombres (comme> 0,4) lorsque je fournis des variables aléatoires indépendantes.
Je ne suis pas un expert, mais le problème semble être que si vous utilisez simplement des densités conjointes et marginales pour calculer l'IM, un biais est introduit dans le processus parce que l'IM est par définition positif. Quelqu'un a-t-il des conseils pratiques sur la façon d'estimer avec précision les informations mutuelles?
Une question connexe est, dans la pratique, comment les gens utilisent-ils réellement MI pour sélectionner les fonctionnalités? Il n'est pas évident pour moi de trouver une valeur seuil, car l'IM est en théorie illimité. Ou les gens classent-ils simplement les fonctionnalités par MI et prennent-ils les k meilleures fonctionnalités?