Science des données machine-learning

8

Regroupement des coordonnées géographiques (lat, paires longues)

Quelle est la bonne approche et le bon algorithme de clustering pour le clustering de géolocalisation? J'utilise le code suivant pour regrouper les coordonnées de géolocalisation: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, …

51 machine-learning python clustering k-means geospatial

8

Pourquoi la suralimentation est-elle mauvaise dans l'apprentissage automatique?

La logique dit souvent qu'en surajustant un modèle, sa capacité à généraliser est limitée, bien que cela puisse simplement signifier que l'ajustement excessif empêche un modèle de s'améliorer après une certaine complexité. La suradaptation provoque-t-elle une détérioration des modèles, quelle que soit la complexité des données, et si oui, pourquoi …

49 machine-learning predictive-modeling

5

Réseaux de neurones: quelle fonction de coût utiliser?

J'utilise TensorFlow pour des expériences principalement avec des réseaux de neurones. Bien que j'aie fait pas mal d'expériences (XOR-Problem, MNIST, des trucs de régression, ...) maintenant, je ne parviens pas à choisir la fonction de coût "correcte" pour des problèmes spécifiques car, dans l'ensemble, je pourrais être considéré comme un …

49 machine-learning python neural-network statistics tensorflow

9

Existe-t-il un domaine dans lequel les réseaux Bayesian surpassent les réseaux de neurones?

Les réseaux de neurones obtiennent les meilleurs résultats dans les tâches de vision par ordinateur (voir MNIST , ILSVRC , Kaggle Galaxy Challenge ). Ils semblent surperformer toutes les autres approches de Computer Vision. Mais il y a aussi d'autres tâches: Kaggle Défi Activité Moléculaire Régression: prédiction de pluie Kaggle …

48 machine-learning pgm

5

Devrais-je choisir un jeu de données «équilibré» ou un jeu de données «représentatif»?

Ma tâche d'apprentissage automatique consiste à séparer le trafic Internet bénin du trafic malveillant. Dans le scénario réel, la majorité (par exemple 90% ou plus) du trafic Internet est bénigne. Ainsi, j’ai pensé que je devrais également choisir une configuration de données similaire pour la formation de mes modèles. Mais …

48 machine-learning dataset unbalanced-classes

10

Apprentissage automatique - fonctions d'ingénierie à partir de données de date / heure

Quelles sont les pratiques courantes / meilleures pour gérer les données de temps pour une application d'apprentissage automatique? Par exemple, si dans le jeu de données, il existe une colonne avec l'horodatage de l'événement, telle que "2014-05-05", comment extraire des fonctionnalités utiles de cette colonne, le cas échéant? Merci d'avance!

45 machine-learning time-series feature-selection

4

Ajout de fonctions au modèle de série temporelle LSTM

Nous en avons lu un peu sur les LSTM et sur leur utilisation pour les séries chronologiques. C’est intéressant mais difficile en même temps. Une chose que j’ai eu du mal à comprendre est l’approche pour ajouter des fonctionnalités à ce qui est déjà une liste de fonctionnalités de séries …

43 machine-learning neural-network deep-learning time-series

5

GBM vs XGBOOST? Différences clés?

J'essaie de comprendre les principales différences entre GBM et XGBOOST. J'ai essayé de le rechercher sur Google, mais je n'ai trouvé aucune bonne réponse expliquant les différences entre les deux algorithmes et expliquant pourquoi xgboost fonctionne presque toujours mieux que GBM. Qu'est-ce qui rend XGBOOST si rapide?

41 machine-learning algorithms xgboost ensemble-modeling gbm

4

Pourquoi la taille d'un mini-lot est-elle meilleure qu'un seul «lot» avec toutes les données d'apprentissage?

Je lis souvent que dans le cas des modèles d'apprentissage en profondeur, la pratique habituelle consiste à appliquer des mini-lots (généralement un petit, 32/64) sur plusieurs périodes d'entraînement. Je ne peux pas vraiment comprendre la raison derrière cela. Sauf erreur de ma part, la taille du lot correspond au nombre …

40 machine-learning deep-learning

10

Pourquoi les modèles Machine Learning sont-ils appelés des boîtes noires?

Je lisais ce billet de blog intitulé: Le monde financier veut ouvrir les boîtes noires d'AI , où l'auteur fait référence à plusieurs reprises aux modèles ML comme des "boîtes noires". Une terminologie similaire a été utilisée à plusieurs endroits en référence aux modèles ML. Pourquoi est-ce? Ce n’est pas …

40 machine-learning terminology

10

Les algorithmes d’apprentissage automatique peuvent-ils prédire des résultats sportifs ou des jeux?

J'ai divers jeux de données de la NFL qui pourraient constituer un bon projet parallèle, mais je ne les ai pas encore utilisés. Venir sur ce site m’a fait penser à des algorithmes d’apprentissage automatique et je me demandais jusqu’à quel point ils pourraient bien prédire l’issue des matchs de …

40 machine-learning sports

11

Data Science en C (ou C ++)

Je suis un Rprogrammeur de langue. Je fais également partie du groupe de personnes considérées comme des scientifiques du traitement des données, mais qui appartiennent à des disciplines universitaires autres que la CS. Cela fonctionne bien dans mon rôle de Data Scientist. Cependant, en commençant ma carrière dans Rles autres …

40 machine-learning bigdata statistics programming c

3

Quand utiliser quoi - Machine Learning [fermé]

Récemment, dans une classe d'apprentissage automatique du professeur Oriol Pujol à UPC / Barcelone, il a décrit les algorithmes, principes et concepts les plus courants à utiliser pour une large gamme de tâches liées à l'apprentissage automatique. Ici, je les partage avec vous et vous demande: Existe-t-il un cadre complet …

39 machine-learning algorithms

2

Comment interpréter la sortie d'importance XGBoost?

J'ai couru un modèle xgboost. Je ne sais pas exactement comment interpréter le résultat de xgb.importance. Quelle est la signification de gain, couverture et fréquence et comment les interprète-t-on? De plus, que signifient Split, RealCover et RealCover%? J'ai quelques paramètres supplémentaires ici Existe-t-il d'autres paramètres pouvant en dire plus sur …

37 machine-learning xgboost

13

Citations drôles sur la science des données

Les utilisateurs de différentes communautés ont coutume de citer des choses amusantes sur leurs domaines. Il peut être amusant de partager vos drôles de choses sur l’apprentissage automatique, l’apprentissage en profondeur, la science des données et les problèmes auxquels vous êtes confrontés tous les jours!

35 machine-learning neural-network deep-learning

Questions marquées «machine-learning»