Lorsque je parle de "document", je pense à des pages Web telles que des articles de Wikipédia et des reportages. Je préfère les réponses donnant soit des métriques de distance lexicale vanille, soit des métriques de distance sémantiques de pointe, avec une préférence plus forte pour ces dernières.
Après avoir utilisé la science des données avec R, je me suis rendu compte que le nettoyage des mauvaises données est une partie très importante de la préparation des données pour analyse. Existe-t-il des meilleures pratiques ou processus pour nettoyer les données avant de les traiter? Si tel est le …
J'essaie actuellement d'ouvrir un fichier contenant des pandas et du python à des fins d'apprentissage automatique. Il serait idéal pour moi de les avoir tous dans un DataFrame. Maintenant, le fichier fait 18 Go et ma mémoire vive de 32 Go, mais je continue à avoir des erreurs de mémoire. …
Comment pouvez-vous programmer dans la bibliothèque keras (ou tensorflow) pour partitionner la formation sur plusieurs GPU? Supposons que vous vous trouviez dans une instance Amazon ec2 comportant 8 GPU et que vous souhaitiez toutes les utiliser pour vous entraîner plus rapidement, mais que votre code ne concerne qu'un seul processeur …
J'ai lu sur NCE (une forme d'échantillonnage de candidats) à partir de ces deux sources: Rédaction Tensorflow Papier original Quelqu'un peut-il m'aider avec les éléments suivants: Une explication simple du fonctionnement des RCE (j'ai trouvé les éléments ci-dessus difficiles à analyser et à comprendre, donc quelque chose d'intuitif qui mène …
Donc, récemment, il y a un papier de normalisation des calques . Il existe également une implémentation de celui-ci sur Keras. Mais je me souviens qu'il y a des articles intitulés Recurrent Batch Normalization (Cooijmans, 2016) et Batch Normalized Recurrent Neural Networks (Laurent, 2015). Quelle est la différence entre ces …
J'essaie de convertir une liste de listes qui ressemble à la suivante en un cadre de données Pandas [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees …
Avec Hadoop 2.0 et YARN, Hadoop ne serait plus lié uniquement aux solutions de réduction de carte. Avec cet avancement, quels sont les cas d'utilisation d'Apache Spark vs Hadoop considérant que les deux se trouvent au sommet de HDFS? J'ai lu la documentation d'introduction de Spark, mais je suis curieux …
Je travaille sur la recherche, là où le besoin de classer l' un des trois cas GAGNANT = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Mon …
J'ai un gros problème de données avec un grand ensemble de données (prenez par exemple 50 millions de lignes et 200 colonnes). L'ensemble de données comprend environ 100 colonnes numériques et 100 colonnes catégorielles et une colonne de réponse qui représente un problème de classe binaire. La cardinalité de chacune …
Il me semble que la fonction VVV peut être facilement exprimée par la fonction QQQ et donc la fonction VVV me semble superflue. Cependant, je suis nouveau dans l'apprentissage par renforcement, donc je suppose que je me suis trompé. Définitions L'apprentissage Q et V s'inscrit dans le contexte des processus …
Pourquoi utiliser softmax par opposition à la normalisation standard? Dans la zone de commentaire de la première réponse à cette question, @Kilian Batzner a soulevé 2 questions qui me déroutent également beaucoup. Il semble que personne ne donne d'explication à l'exception des avantages numériques. J'ai les raisons d'utiliser la perte …
Dans les tâches d'apprentissage automatique, il est courant de mélanger les données et de les normaliser. Le but de la normalisation est clair (pour avoir la même plage de valeurs de caractéristiques). Mais, après beaucoup de difficultés, je n'ai trouvé aucune raison valable de mélanger les données. J'ai lu ce …
Dans le contexte du Machine Learning , j'ai vu le terme Ground Truth beaucoup utilisé. J'ai beaucoup cherché et trouvé la définition suivante dans Wikipedia : Dans l'apprentissage automatique, le terme «vérité terrain» fait référence à l'exactitude de la classification de l'ensemble d'apprentissage pour les techniques d'apprentissage supervisé. Ceci est …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.