Avoir un corpus de plus d'un million de documents Pour un document donné, vous voulez trouver des documents similaires en utilisant le cosinus comme dans le modèle d'espace vectoriel d1⋅d2/(||d1||||d2||)ré1⋅ré2/(||ré1||||ré2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Tous les tf ont été normalisés en utilisant une fréquence augmentée, pour éviter …
J'essaie d'apprendre le grattage Web en utilisant Python par moi-même dans le cadre d'un effort pour apprendre l'analyse des données. J'essaie de gratter la page Web imdb dont l'URL est la suivante: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 J'utilise le module BeautifulSoup. Voici le code que j'utilise: r = requests.get(url) # where url is the …
Je recherche des packages (en python, R ou un package autonome) pour effectuer un apprentissage en ligne afin de prédire les données de stock. J'ai trouvé et lu sur Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), ce qui semble être très prometteur mais je me demande s'il y a d'autres packages. Merci …
J'essaie de créer un ensemble de données sur plusieurs fichiers journaux de l'un de nos produits. Les différents fichiers journaux ont leur propre mise en page et leur propre contenu; Je les ai regroupés avec succès, il ne reste qu'une étape ... En effet, les "messages" du journal sont les …
J'essaie de configurer une infrastructure de Big Data en utilisant Hadoop, Hive, Elastic Search (entre autres), et je voudrais exécuter des algorithmes sur certains ensembles de données. Je voudrais que les algorithmes eux-mêmes soient évolutifs, ce qui exclut l'utilisation d'outils tels que Weka, R ou même RHadoop. La bibliothèque Apache …
Description générale du problème J'ai un graphique où certains sommets sont étiquetés avec un type avec 3 ou 4 valeurs possibles. Pour les autres sommets, le type est inconnu. Mon objectif est d'utiliser le graphique pour prédire le type des sommets qui ne sont pas étiquetés. Cadre possible Je soupçonne …
J'ai des milliers de listes de chaînes et chaque liste contient environ 10 chaînes. La plupart des chaînes d'une liste donnée sont très similaires, bien que certaines chaînes soient (rarement) complètement sans rapport avec les autres et que certaines chaînes contiennent des mots non pertinents. Ils peuvent être considérés comme …
J'ai développé un programme d'échecs qui utilise un algorithme d'élagage alpha-bêta et une fonction d'évaluation qui évalue les positions en utilisant les caractéristiques suivantes à savoir le matériel, la sécurité du roi, la mobilité, la structure du pion et les pièces piégées, etc. ... Ma fonction d'évaluation est dérivé de …
Avertissement: je suis un débutant complet en matière d'apprentissage automatique, mais désireux d'apprendre. J'ai un grand ensemble de données et j'essaie de trouver un modèle. Il peut / peut ne pas y avoir de corrélation entre les données, soit avec des variables connues, soit avec des variables contenues dans les …
J'ai analysé un ensemble de données d'environ 400k enregistrements et 9 variables La variable dépendante est binaire. J'ai ajusté une régression logistique, un arbre de régression, une forêt aléatoire et un arbre boosté par gradient. Tous donnent des valeurs d'ajustement virtuellement identiques lorsque je les valide sur un autre ensemble …
Existe-t-il un tableau général connu des techniques statistiques expliquant comment elles évoluent avec la taille et la dimension de l'échantillon? Par exemple, un de mes amis m'a dit l'autre jour que le temps de calcul d'un simple tri rapide des données unidimensionnelles de taille n correspond à n * log …
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour Data Science Stack Exchange. Fermé il y a 5 ans . je veux devenir un scientifique des données . J'ai étudié …
Je voudrais utiliser des données non atomiques, comme fonctionnalité pour une prédiction. Supposons que j'ai une table avec ces fonctionnalités: - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ …
Je voudrais utiliser ANN pour automatiser le trading de devises, de préférence USD / EUR ou USD / GBP. Je sais que c'est difficile et peut-être pas simple. J'ai déjà lu quelques articles et fait quelques expériences mais sans trop de chance. J'aimerais obtenir des conseils d'EXPERTS pour que cela …
Je travaille sur un système de détection de fraude. Dans ce domaine, de nouvelles fraudes apparaissent régulièrement, de sorte que de nouvelles fonctionnalités doivent être ajoutées au modèle de manière continue. Je me demande quelle est la meilleure façon de gérer cela (du point de vue du processus de développement)? …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.