Ici, je demande ce que les autres font couramment pour utiliser le test du chi carré pour la sélection des fonctionnalités par rapport au résultat de l'apprentissage supervisé. Si je comprends bien, testent-ils l'indépendance entre chaque fonctionnalité et le résultat, et comparent-ils les valeurs de p entre les tests pour chaque fonctionnalité?
Dans http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
Le test du chi carré de Pearson est un test statistique appliqué à des ensembles de données catégorielles pour évaluer la probabilité que toute différence observée entre les ensembles soit apparue par hasard.
...
Un test d'indépendance évalue si les observations appariées sur deux variables, exprimées dans un tableau de contingence , sont indépendantes l'une de l'autre (par exemple, interroger les réponses de personnes de nationalités différentes pour voir si sa nationalité est liée à la réponse).
Les deux variables dont l'indépendance est testée par le test doivent-elles donc être catégoriques, ou discrètes (permettant d'ordonner en plus de catégoriques), mais non continues?
Depuis http://scikit-learn.org/stable/modules/feature_selection.html , ils
effectuer un sur l'ensemble de données iris pour récupérer uniquement les deux meilleures fonctionnalités.
Dans l'ensemble de données iris , toutes les entités sont évaluées numériquement et en continu, et le résultat est des étiquettes de classe (catégorielles). Comment le test d'indépendance du chi carré s'applique-t-il aux fonctionnalités continues?
Pour appliquer le test d'indépendance du chi carré à l'ensemble de données, convertissons-nous d'abord les entités continues en entités discrètes, en les regroupant (c'est-à-dire en discrétisant d'abord les domaines continus des entités en bacs, puis en remplaçant les entités par des occurrences des valeurs des entités dans les intervalles) )?
Les occurrences dans plusieurs cases forment une caractéristique multinomiale (se produisent ou non dans chaque case), donc le test d'indépendance du chi carré peut leur être appliqué, non?
Soit dit en passant, pouvons-nous appliquer le test d'indépendance du chi carré aux caractéristiques et aux résultats de toute nature , n'est-ce pas?
Pour la partie des résultats, nous pouvons sélectionner des fonctionnalités non seulement pour la classification, mais aussi pour la régression, par test d'indépendance du chi carré, en regroupant le résultat continu, non?
Le site d'apprentissage de Scikit dit également
Calculez les statistiques du chi carré entre chaque fonction non négative et chaque classe.
Ce score peut être utilisé pour sélectionner les fonctionnalités n_features avec les valeurs les plus élevées pour la statistique de test du chi carré de X, qui ne doit contenir que des fonctionnalités non négatives telles que les booléens ou les fréquences (par exemple, le nombre de termes dans la classification du document), par rapport à la Des classes.
Pourquoi le test nécessite-t-il des fonctionnalités non négatives?
Si les entités n'ont pas de signes mais sont catégoriques ou discrètes, le test peut-il toujours s'appliquer à elles? (Voir ma partie 1)
Si les fonctionnalités sont négatives, nous pouvons toujours regrouper leurs domaines et les remplacer par leurs occurrences (tout comme ce que je suppose pour appliquer le test à l'ensemble de données iris, voir la partie 2), non?
Remarque: Je suppose que Scikit Learn suit les principes généraux, et c'est ce que je demande ici. Sinon, alors tout va bien.