Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées





6
Des fonctionnalités d'encodage comme le mois et l'heure sont catégorielles ou numériques?
Est-il préférable d'encoder des fonctionnalités comme le mois et l'heure en tant que facteur ou numérique dans un modèle d'apprentissage automatique? D'une part, je pense que l'encodage numérique pourrait être raisonnable, car le temps est un processus progressif (le cinquième mois est suivi du sixième mois), mais d'autre part, je …


4
XGBoost gère-t-il la multicolinéarité par lui-même?
J'utilise actuellement XGBoost sur un ensemble de données avec 21 fonctionnalités (sélectionnées dans la liste de quelque 150 fonctionnalités), puis je les ai codées à chaud pour obtenir ~ 98 fonctionnalités. Certaines de ces 98 fonctionnalités sont quelque peu redondantes, par exemple: une variable (fonctionnalité) apparaît également comme BAAA etCBABA\frac{B}{A} …

2
Comment utiliser la sortie de GridSearch?
Je travaille actuellement avec Python et Scikit learn à des fins de classification, et en lisant autour de GridSearch, j'ai pensé que c'était un excellent moyen d'optimiser mes paramètres d'estimateur pour obtenir les meilleurs résultats. Ma méthodologie est la suivante: Divisez mes données en formation / test. Utilisez GridSearch avec …





6
Partage des blocs-notes Jupyter au sein d'une équipe
Je voudrais mettre en place un serveur qui pourrait prendre en charge une équipe de science des données de la manière suivante: être un point central pour le stockage, la gestion des versions, le partage et éventuellement l'exécution des blocs-notes Jupyter. Quelques propriétés souhaitées: Différents utilisateurs peuvent accéder au serveur …

3
Quelle est une meilleure entrée pour Word2Vec?
Cela ressemble plus à une question générale de PNL. Quelle est l'entrée appropriée pour former l'intégration d'un mot, à savoir Word2Vec? Est-ce que toutes les phrases appartenant à un article devraient être un document séparé dans un corpus? Ou chaque article doit-il être un document dans ledit corpus? Ceci est …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.