Science des données python

17

Meilleure librairie python pour réseaux de neurones

J'utilise des réseaux de neurones pour résoudre différents problèmes d'apprentissage machine. J'utilise Python et Pybrain mais cette bibliothèque est presque abandonnée. Existe-t-il d'autres bonnes alternatives en Python?

130 machine-learning python neural-network

8

Différence entre fit et fit_transform dans les modèles scikit_learn?

Je suis débutant en science des données et je ne comprends pas la différence entre les méthodes fitet les fit_transformméthodes de scikit-learn. Quelqu'un peut-il simplement expliquer pourquoi nous pourrions avoir besoin de transformer des données? Qu'est-ce que cela signifie d'ajuster le modèle sur les données d'apprentissage et de le transformer …

110 python scikit-learn

15

Python vs R pour l'apprentissage automatique

Je commence tout juste à développer une application d' apprentissage automatique à des fins académiques. J'utilise actuellement R et m'entraîne moi-même. Cependant, dans de nombreux endroits, j'ai vu des personnes utiliser Python . Qu'est-ce que les gens utilisent dans les universités et l'industrie et quelle est la recommandation?

101 machine-learning r python

11

SVM utilisant scikit learn s'exécute sans fin et ne termine jamais l'exécution

J'essaie d'exécuter SVR à l'aide de scikit learn (python) sur un jeu de données d'apprentissage comportant 595605 lignes et 5 colonnes (entités) et sur un jeu de données test comportant 397070 lignes. Les données ont été pré-traitées et régularisées. Je peux exécuter avec succès les exemples de test, mais lors …

76 python svm scikit-learn

1

Différence entre isna () et isnull () dans les pandas

J'utilise des pandas depuis un certain temps. Mais, je n'ai pas compris quelle est la différence entre isna()et isnull()dans les pandas. Et, plus important encore, lequel utiliser pour identifier les valeurs manquantes dans le cadre de données. Quelle est la différence fondamentale sous-jacente de la manière dont une valeur est …

73 python pandas dataframe

6

les chaînes en tant qu'entités dans l'arbre de décision / la forêt aléatoire

Je fais quelques problèmes sur une application d'arbre de décision / forêt aléatoire. J'essaie d'adapter un problème comportant à la fois des chiffres et des chaînes (telles que le nom du pays). Maintenant, dans la bibliothèque, scikit-learn prend uniquement des nombres en tant que paramètres, mais je souhaite injecter les …

64 machine-learning python scikit-learn random-forest decision-trees

2

Former un RNN avec des exemples de différentes longueurs à Keras

J'essaie de commencer à apprendre sur les RNN et j'utilise Keras. Je comprends le principe de base des couches RNN et LSTM à la vanille, mais j’ai du mal à comprendre un certain point technique pour la formation. Dans la documentation de keras , il est indiqué que l’entrée dans …

64 python keras rnn training

8

Détection d'anomalies open source en Python

Problème: Je travaille sur un projet qui implique des fichiers journaux similaires à ceux trouvés dans l'espace de surveillance informatique (à ma meilleure compréhension de l'espace informatique). Ces fichiers journaux sont des données chronologiques organisées en centaines / milliers de lignes de paramètres variés. Chaque paramètre est numérique (float) et …

61 machine-learning python data-mining anomaly-detection library

8

Regroupement des coordonnées géographiques (lat, paires longues)

Quelle est la bonne approche et le bon algorithme de clustering pour le clustering de géolocalisation? J'utilise le code suivant pour regrouper les coordonnées de géolocalisation: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, …

51 machine-learning python clustering k-means geospatial

9

Outils et protocole pour la science des données reproductibles à l'aide de Python

Je travaille sur un projet de science des données utilisant Python. Le projet comporte plusieurs étapes. Chaque étape consiste à prendre un ensemble de données, à utiliser des scripts Python, des données auxiliaires, une configuration et des paramètres, et à créer un autre ensemble de données. Je stocke le code …

50 python tools version-control

5

Réseaux de neurones: quelle fonction de coût utiliser?

J'utilise TensorFlow pour des expériences principalement avec des réseaux de neurones. Bien que j'aie fait pas mal d'expériences (XOR-Problem, MNIST, des trucs de régression, ...) maintenant, je ne parviens pas à choisir la fonction de coût "correcte" pour des problèmes spécifiques car, dans l'ensemble, je pourrais être considéré comme un …

49 machine-learning python neural-network statistics tensorflow

9

ValueError: l'entrée contient NaN, l'infini ou une valeur trop grande pour dtype ('float32')

J'ai obtenu ValueError lors de la prévision de données de test à l'aide d'un modèle RandomForest. Mon code: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) L'erreur: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Comment trouver les mauvaises …

42 python random-forest pandas

3

Calcul et visualisation de la matrice de corrélation avec les pandas

J'ai un bloc de données de pandas avec plusieurs entrées et je veux calculer la corrélation entre les revenus de certains types de magasins. Il existe un certain nombre de magasins avec des données sur le revenu, une classification du domaine d'activité (théâtre, magasins de tissus, alimentation ...) et d'autres …

35 python statistics visualization pandas

5

Ouverture d’un fichier de 20 Go pour analyse avec des pandas

J'essaie actuellement d'ouvrir un fichier contenant des pandas et du python à des fins d'apprentissage automatique. Il serait idéal pour moi de les avoir tous dans un DataFrame. Maintenant, le fichier fait 18 Go et ma mémoire vive de 32 Go, mais je continue à avoir des erreurs de mémoire. …

33 python bigdata pandas anaconda

3

Multi GPU en keras

Comment pouvez-vous programmer dans la bibliothèque keras (ou tensorflow) pour partitionner la formation sur plusieurs GPU? Supposons que vous vous trouviez dans une instance Amazon ec2 comportant 8 GPU et que vous souhaitiez toutes les utiliser pour vous entraîner plus rapidement, mais que votre code ne concerne qu'un seul processeur …

33 python deep-learning tensorflow keras gpu

Questions marquées «python»