À utiliser pour les questions de science des données liées au langage de programmation Python. Non destiné aux questions générales de codage (-> stackoverflow).
Je travaille sur la recherche, là où le besoin de classer l' un des trois cas GAGNANT = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mon …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
XGBoost a fait un excellent travail en ce qui concerne les variables dépendantes catégoriques et continues. Mais, comment puis-je sélectionner les paramètres optimisés pour un problème XGBoost? Voici comment j'ai appliqué les paramètres d'un problème Kaggle récent: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # …
J'utilise une régression linéaire standard en utilisant scikit-learn en python. Cependant, je voudrais forcer les poids à être tous positifs pour chaque caractéristique (et non négatifs), y a-t-il un moyen de le faire? Je cherchais dans la documentation mais je n'ai pas trouvé de moyen d'y parvenir. Je comprends que …
Les deux PyTorch et tensorflow Fold sont des cadres d'apprentissage en profondeur destinés à faire face aux situations où les données d'entrée a une longueur non uniforme ou les dimensions (qui est, des situations où des graphiques dynamiques sont utiles ou nécessaires). Je voudrais savoir comment ils se comparent, dans …
J'ai développé un modèle d'apprentissage automatique avec Python (Anaconda + Flask) sur mon poste de travail et tout se passe bien. Plus tard, j'ai essayé d'envoyer ce programme sur une autre machine où j'ai bien sûr essayé de configurer le même environnement, mais le programme ne fonctionne pas. J'ai copié …
J'essaie de fusionner deux modèles Keras en un seul modèle et je ne peux pas y parvenir. Par exemple, dans la figure ci-jointe, je voudrais récupérer la couche intermédiaire de dimension 8, et l'utiliser comme entrée pour la couche B 1 (de dimension 8 à nouveau) dans le modèle B …
J'ai une base de données de mon application Facebook et j'essaie d'utiliser l'apprentissage automatique pour estimer l'âge des utilisateurs en fonction des sites Facebook qu'ils aiment. Il y a trois caractéristiques cruciales de ma base de données: la répartition par âge dans mon ensemble de formation (12k d'utilisateurs en somme) …
J'ai un programme de modélisation et de notation qui fait un usage intensif de la DataFrame.isinfonction des pandas, en recherchant dans les listes de Facebook des enregistrements "similaires" d'utilisateurs individuels pour chacune des quelques milliers de pages spécifiques. C'est la partie la plus chronophage du programme, plus encore que les …
Je cherche à utiliser l'implémentation de word2vec de google pour construire un système de reconnaissance d'entités nommées. J'ai entendu dire que les réseaux neuronaux récursifs avec rétropropagation à travers la structure sont bien adaptés aux tâches de reconnaissance d'entités nommées, mais je n'ai pas pu trouver une implémentation décente ou …
Comme il existe de nombreux outils disponibles pour les tâches de science des données, il est lourd d'installer tout et de créer un système parfait. Existe-t-il une image Linux / Mac OS avec Python, R et d'autres outils open source de science des données installés et disponibles pour une utilisation …
Un moyen de former une régression logistique consiste à utiliser la descente de gradient stochastique, avec laquelle scikit-learn offre une interface. Ce que je voudrais faire est de prendre une scikit-learn de SGDClassifier et l' ont marqué le même comme la régression logistique ici . Cependant, je dois manquer certaines …
Quelles sont les meilleures pratiques pour enregistrer, stocker et partager des modèles d'apprentissage automatique? En Python, nous stockons généralement la représentation binaire du modèle, en utilisant pickle ou joblib. Dans mon cas, les modèles peuvent être ~ 100Mo grands. En outre, joblib peut enregistrer un modèle dans plusieurs fichiers, sauf …
Est-il nécessaire de standardiser vos données avant cluster? Dans l'exemple de scikit learnDBSCAN, ici, ils le font dans la ligne: X = StandardScaler().fit_transform(X) Mais je ne comprends pas pourquoi c'est nécessaire. Après tout, le clustering ne suppose aucune distribution particulière de données - il s'agit d'une méthode d'apprentissage non supervisée, …
Je suis plutôt nouveau dans ce domaine et je ne peux pas dire que j'ai une compréhension complète des concepts théoriques derrière cela. J'essaie de calculer la divergence KL entre plusieurs listes de points en Python. J'utilise http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html pour essayer de le faire. Le problème que je rencontre est que …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.