Science des données

2

Outils opensource pour aider à extraire le flux de scores des classements

Considérez un flux contenant des tuples (user, new_score) représentant les scores des utilisateurs dans un jeu en ligne. Le flux pourrait contenir de 100 à 1 000 nouveaux éléments par seconde. Le jeu a 200K à 300K joueurs uniques. J'aimerais avoir des requêtes permanentes comme: Quels joueurs ont affiché plus …

12 tools data-stream-mining

3

Comment une requête dans une énorme base de données revient-elle avec une latence négligeable?

Par exemple, lorsque vous recherchez quelque chose dans Google, les résultats sont presque instantanés. Je comprends que Google trie et indexe les pages avec des algorithmes, etc., mais j'imagine qu'il est impossible pour les résultats de chaque requête possible d'être indexés (et les résultats sont personnalisés, ce qui rend cela …

12 bigdata google search

1

Combien de cellules LSTM dois-je utiliser?

Existe-t-il des règles générales (ou des règles réelles) concernant la quantité minimale, maximale et "raisonnable" de cellules LSTM que je devrais utiliser? Plus précisément, je me rapporte à BasicLSTMCell de TensorFlow et à la num_unitspropriété. Veuillez supposer que j'ai un problème de classification défini par: t - number of time …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

apprentissage en profondeur pour les tâches non-image non-PNL?

Jusqu'à présent, il existe de nombreuses applications intéressantes pour l'apprentissage en profondeur en vision par ordinateur ou en traitement du langage naturel. Comment est-ce dans d'autres domaines plus traditionnels? Par exemple, j'ai des variables sociodémographiques traditionnelles et peut-être beaucoup de mesures de laboratoire et je veux prédire une certaine maladie. …

12 deep-learning

2

Comment calculer la dimension VC?

Im étudie l'apprentissage automatique, et je voudrais savoir comment calculer la dimension VC. Par exemple: h ( x ) = { 10si a≤x≤bautre h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} , avec les paramètres( a , b ) ∈ R2(a,b)∈R2(a,b) ∈ …

12 machine-learning classification vc-theory

5

De bons packages d '«exploration de séquences fréquentes» en Python?

Quelqu'un a-t-il utilisé (et aimé) de bons packages "d'exploration de séquences fréquentes" en Python autres que le FPM dans MLLib? Je recherche un package stable, de préférence encore maintenu par des personnes. Je vous remercie!

12 python sequential-pattern-mining

4

Importez le contenu du fichier csv dans des cadres de données pyspark

Comment importer un fichier .csv dans des cadres de données pyspark? J'ai même essayé de lire le fichier csv dans Pandas, puis de le convertir en un cadre de données spark à l'aide de createDataFrame, mais il affiche toujours une erreur. Quelqu'un peut-il me guider à travers cela? Aussi, dites-moi …

12 pyspark

2

Comment fusionner deux trames de données dans Python Pandas?

J'ai deux trames de données df1 et df2 et je voudrais les fusionner en une seule trame de données. C'est comme si df1 et df2 avaient été créés en divisant verticalement un seul bloc de données au centre, comme déchirer un morceau de papier qui contient une liste en deux …

12 pandas

2

FPGrowth est-il toujours considéré comme «à la pointe de la technologie» dans le cadre de l'exploitation minière fréquente?

Pour autant que je connaisse le développement d'algorithmes pour résoudre le problème de FPM (Frequent Pattern Mining), la route des améliorations a quelques points de contrôle principaux. Premièrement, l' algorithme Apriori a été proposé en 1993 par Agrawal et al. , ainsi que la formalisation du problème. L'algorithme a été …

12 bigdata data-mining efficiency state-of-the-art

2

Réduction efficace de la dimensionnalité pour un grand ensemble de données

J'ai un ensemble de données avec ~ 1M lignes et ~ 500K fonctionnalités clairsemées. Je veux réduire la dimensionnalité quelque part dans l'ordre des entités denses 1K-5K. sklearn.decomposition.PCAne fonctionne pas sur des données éparses, et j'ai essayé d'utiliser sklearn.decomposition.TruncatedSVDmais j'obtiens une erreur de mémoire assez rapidement. Quelles sont mes options …

12 python scikit-learn dimensionality-reduction

3

Remplacer toutes les valeurs numériques dans une trame de données pyspark par une valeur constante

Considérons une trame de données pyspark composée d'éléments «nuls» et d'éléments numériques. En général, les éléments numériques ont des valeurs différentes. Comment est-il possible de remplacer toutes les valeurs numériques de la trame de données par une valeur numérique constante (par exemple par la valeur 1)? Merci d'avance! Exemple pour …

12 python apache-spark

2

Quand utiliser Standard Scaler et quand Normalizer?

Je comprends ce que fait Standard Scalar et ce que fait Normalizer, selon la documentation de scikit: Normalizer , Standard Scaler . Je sais quand Standard Scaler est appliqué. Mais dans quel scénario le Normalizer est-il appliqué? Y a-t-il des scénarios où l'un est préféré à l'autre?

12 python scikit-learn data-cleaning normalization

2

Scikit-learn utilise-t-il la régularisation par défaut?

Je viens d'ajuster une courbe logistique à de fausses données. J'ai fait des données essentiellement une fonction pas à pas. data = -------------++++++++++++++ Mais quand je regarde la courbe ajustée, la pente est très petite. La fonction qui minimise le mieux la fonction de coût, en supposant une entropie croisée, …

12 logistic-regression scikit-learn

2

Qu'est-ce qu'un encodage à chaud dans Tensorflow?

Je suis actuellement en cours de tensorflow dans lequel ils ont utilisé tf.one_hot (indices, profondeur). Maintenant, je ne comprends pas comment ces indices se transforment en cette séquence binaire. Quelqu'un peut-il m'expliquer le processus exact ???

11 machine-learning python neural-network deep-learning tensorflow

4

Comment le principe de rasoir d'Occam fonctionnera-t-il dans le Machine Learning

La question suivante affichée dans l'image a été posée récemment lors d'un des examens. Je ne sais pas si j'ai bien compris le principe du rasoir d'Occam ou non. Selon les distributions et les limites de décision données dans la question et après le rasoir d'Occam, la limite de décision …

11 machine-learning classification