Science des données

10

Les algorithmes d’apprentissage automatique peuvent-ils prédire des résultats sportifs ou des jeux?

J'ai divers jeux de données de la NFL qui pourraient constituer un bon projet parallèle, mais je ne les ai pas encore utilisés. Venir sur ce site m’a fait penser à des algorithmes d’apprentissage automatique et je me demandais jusqu’à quel point ils pourraient bien prédire l’issue des matchs de …

40 machine-learning sports

11

Data Science en C (ou C ++)

Je suis un Rprogrammeur de langue. Je fais également partie du groupe de personnes considérées comme des scientifiques du traitement des données, mais qui appartiennent à des disciplines universitaires autres que la CS. Cela fonctionne bien dans mon rôle de Data Scientist. Cependant, en commençant ma carrière dans Rles autres …

40 machine-learning bigdata statistics programming c

3

Quand utiliser quoi - Machine Learning [fermé]

Récemment, dans une classe d'apprentissage automatique du professeur Oriol Pujol à UPC / Barcelone, il a décrit les algorithmes, principes et concepts les plus courants à utiliser pour une large gamme de tâches liées à l'apprentissage automatique. Ici, je les partage avec vous et vous demande: Existe-t-il un cadre complet …

39 machine-learning algorithms

3

Batch_size dans Keras a-t-il des effets sur la qualité des résultats?

Je suis sur le point de former un grand réseau LSTM avec 2 à 3 millions d'articles et je suis aux prises avec des erreurs de mémoire (j'utilise AWS EC2 g2x2large). J'ai découvert qu'une solution consiste à réduire le batch_size. Cependant, je ne sais pas si ce paramètre est uniquement …

38 deep-learning keras

9

Dois-je apprendre Hadoop pour devenir un Data Scientist?

Un scientifique de données en herbe ici. Je ne connais rien à Hadoop, mais comme je lisais des articles sur Data Science et Big Data, je vois beaucoup de discussions sur Hadoop. Est-il absolument nécessaire d'apprendre Hadoop pour être un scientifique de données?

38 bigdata apache-hadoop

3

Quelle est la difference entre “equivariant to translation” et “invariant to translation”

J'ai du mal à comprendre la différence entre équivariant de traduction et invariant de traduction . Dans le livre Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville et Y. Bengio), on peut trouver sur les réseaux convolutifs: [...] la forme particulière de partage des paramètres donne à la …

38 neural-network deep-learning convolution

11

Les scientifiques de données utilisent-ils Excel?

Je me considérerais comme un compagnon scientifique des données. Comme beaucoup (je pense), j'ai réalisé mes premiers graphiques et mes premières agrégations au lycée et au collège, en utilisant Excel. Après mes études universitaires, mes études supérieures et environ 7 ans d'expérience professionnelle, j'ai rapidement découvert ce que je considère …

37 tools career excel

2

Comment interpréter la sortie d'importance XGBoost?

J'ai couru un modèle xgboost. Je ne sais pas exactement comment interpréter le résultat de xgb.importance. Quelle est la signification de gain, couverture et fréquence et comment les interprète-t-on? De plus, que signifient Split, RealCover et RealCover%? J'ai quelques paramètres supplémentaires ici Existe-t-il d'autres paramètres pouvant en dire plus sur …

37 machine-learning xgboost

5

Scikit-learn a-t-il un algorithme de sélection directe / régression pas à pas?

Je travaille sur le problème avec trop de fonctionnalités et la formation de mes modèles prend beaucoup trop de temps. J'ai mis en œuvre un algorithme de sélection directe pour choisir les fonctionnalités. Cependant, je me demandais si scikit-learn avait un algorithme de sélection en aval / de régression pas …

37 feature-selection scikit-learn

3

Calcul et visualisation de la matrice de corrélation avec les pandas

J'ai un bloc de données de pandas avec plusieurs entrées et je veux calculer la corrélation entre les revenus de certains types de magasins. Il existe un certain nombre de magasins avec des données sur le revenu, une classification du domaine d'activité (théâtre, magasins de tissus, alimentation ...) et d'autres …

35 python statistics visualization pandas

13

Citations drôles sur la science des données

Les utilisateurs de différentes communautés ont coutume de citer des choses amusantes sur leurs domaines. Il peut être amusant de partager vos drôles de choses sur l’apprentissage automatique, l’apprentissage en profondeur, la science des données et les problèmes auxquels vous êtes confrontés tous les jours!

35 machine-learning neural-network deep-learning

13

Que pensez-vous des certifications Data Science?

J'ai maintenant vu deux programmes de certification en science des données, celui de John Hopkins disponible à Coursera et celui de Cloudera . Je suis sûr qu'il y en a d'autres là-bas. L'ensemble de classes de John Hopkins est axé sur R en tant qu'ensemble d'outils, mais couvre un éventail …

35 education

6

Dans l'apprentissage supervisé, pourquoi est-il mauvais d'avoir des fonctionnalités corrélées?

J'ai lu quelque part que si nous avons des caractéristiques trop corrélées, nous devons en supprimer une, car cela pourrait aggraver le modèle. Il est clair que les entités corrélées signifient qu’elles apportent la même information. Il est donc logique de supprimer l’une d’elles. Mais je ne peux pas comprendre …

35 machine-learning correlation

6

Explication de la perte d'entropie croisée

Supposons que je construise un NN pour la classification. La dernière couche est une couche dense avec activation softmax. J'ai cinq classes différentes à classer. Supposons que pour un seul exemple de formation, le true labelsoit [1 0 0 0 0]alors que les prédictions soient [0.1 0.5 0.1 0.1 0.2]. …

35 machine-learning deep-learning

1

La différence entre `Dense` et` TimeDistributedDense` de `Keras`

Je suis encore confus quant à la différence entre Denseet TimeDistributedDensede Kerasmême s'il y a déjà des questions similaires posées ici et ici . Les gens discutent beaucoup mais pas de conclusions convenues d'un commun accord. Et même si, ici , @fchollet a déclaré que: TimeDistributedDenseapplique une même opération Dense(entièrement …

34 machine-learning neural-network keras