Questions marquées «feature-construction»

L'ingénierie des fonctionnalités est le processus consistant à utiliser la connaissance du domaine des données pour créer des fonctionnalités pour les modèles d'apprentissage automatique. Cette balise est destinée aux questions à la fois théoriques et pratiques concernant l'ingénierie des fonctionnalités, à l'exclusion des questions demandant du code, qui seraient hors sujet sur CrossValidated.

6
Manière raisonnée de regrouper des variables catégoriques à plusieurs niveaux?
Quelles techniques sont disponibles pour regrouper (ou regrouper) plusieurs catégories en un petit nombre, dans le but de les utiliser comme entrée (prédicteur) dans un modèle statistique? Considérons une variable comme étudiant majeur (discipline choisie par un étudiant de premier cycle). Il est non ordonné et catégorique, mais il peut …

2
Les encodeurs automatiques ne peuvent pas apprendre de fonctionnalités significatives
J'ai 50 000 images comme celles-ci: Ils représentent des graphiques de données. Je voulais extraire des fonctionnalités de ces images, j'ai donc utilisé le code de l'encodeur automatique fourni par Theano (deeplearning.net). Le problème est que ces encodeurs automatiques ne semblent pas apprendre de fonctionnalités. J'ai essayé RBM et c'est …

7
comment représenter la géographie ou le code postal dans un modèle d'apprentissage automatique ou un système de recommandation?
Je construis un modèle et je pense que la situation géographique est susceptible d'être très bonne pour prédire ma variable cible. J'ai le code postal de chacun de mes utilisateurs. Je ne suis pas tout à fait sûr de la meilleure façon d'inclure le code postal comme fonctionnalité de prédiction …


2
Quand devrions-nous discrétiser / classer les variables / caractéristiques indépendantes continues et quand ne le devrions-nous pas?
Quand devrions-nous discrétiser / classer les variables / fonctionnalités indépendantes et quand ne le devrions-nous pas? Mes tentatives pour répondre à la question: En général, nous ne devons pas bin, car le binning perdra des informations. Le binning augmente en fait le degré de liberté du modèle, il est donc …


2
Tutoriels pour l'ingénierie des fonctionnalités
Comme chacun le sait, l'ingénierie des fonctionnalités est extrêmement importante pour l'apprentissage automatique, mais j'ai trouvé peu de matériaux associés à ce domaine. J'ai participé à plusieurs compétitions à Kaggle et je pense que de bonnes fonctionnalités peuvent même être plus importantes qu'un bon classificateur dans certains cas. Quelqu'un connaît-il …




5
Est-il préférable de faire une analyse exploratoire des données sur l'ensemble de données de formation uniquement?
Je fais l'analyse exploratoire des données (EDA) sur un ensemble de données. Ensuite, je sélectionnerai certaines fonctionnalités pour prédire une variable dépendante. La question est: dois-je faire l'EDA sur mon ensemble de données de formation uniquement? Ou dois-je joindre les ensembles de données de formation et de test ensemble, puis …



1
Extraction automatique des mots clés: utilisation des similitudes cosinus comme fonctionnalités
J'ai une matrice de termes de document , et maintenant je voudrais extraire des mots-clés pour chaque document avec une méthode d'apprentissage supervisé (SVM, Naive Bayes, ...). Dans ce modèle, j'utilise déjà Tf-idf, Pos tag, ...MMM Mais maintenant, je me pose des questions sur les voisins. J'ai une matrice avec …

2
Une ingénierie des fonctionnalités indépendante du domaine qui conserve une signification sémantique?
L'ingénierie des fonctionnalités est souvent un élément important de l'apprentissage automatique (elle a été largement utilisée pour remporter la Coupe KDD en 2010 ). Cependant, je trouve que la plupart des techniques d'ingénierie des fonctionnalités détruire toute signification intuitive des caractéristiques sous-jacentes ou sont très spécifiques à un domaine particulier …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.