Science des données

3

Modèle d'espace vectoriel cosinus tf-idf pour trouver des documents similaires

Avoir un corpus de plus d'un million de documents Pour un document donné, vous voulez trouver des documents similaires en utilisant le cosinus comme dans le modèle d'espace vectoriel d1⋅d2/(||d1||||d2||)ré1⋅ré2/(||ré1||||ré2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Tous les tf ont été normalisés en utilisant une fréquence augmentée, pour éviter …

10 text-mining similarity

4

Comment gratter la page Web imdb?

J'essaie d'apprendre le grattage Web en utilisant Python par moi-même dans le cadre d'un effort pour apprendre l'analyse des données. J'essaie de gratter la page Web imdb dont l'URL est la suivante: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 J'utilise le module BeautifulSoup. Voici le code que j'utilise: r = requests.get(url) # where url is the …

10 data-mining python scraping

2

Bibliothèques pour l'apprentissage automatique en ligne

Je recherche des packages (en python, R ou un package autonome) pour effectuer un apprentissage en ligne afin de prédire les données de stock. J'ai trouvé et lu sur Vowpal Wabbit ( https://github.com/JohnLangford/vowpal_wabbit/wiki ), ce qui semble être très prometteur mais je me demande s'il y a d'autres packages. Merci …

10 machine-learning online-learning

3

Analyse du fichier journal: extraction de la partie information de la partie valeur

J'essaie de créer un ensemble de données sur plusieurs fichiers journaux de l'un de nos produits. Les différents fichiers journaux ont leur propre mise en page et leur propre contenu; Je les ai regroupés avec succès, il ne reste qu'une étape ... En effet, les "messages" du journal sont les …

10 text-mining clustering

2

Détection évolutive des valeurs aberrantes / des anomalies

J'essaie de configurer une infrastructure de Big Data en utilisant Hadoop, Hive, Elastic Search (entre autres), et je voudrais exécuter des algorithmes sur certains ensembles de données. Je voudrais que les algorithmes eux-mêmes soient évolutifs, ce qui exclut l'utilisation d'outils tels que Weka, R ou même RHadoop. La bibliothèque Apache …

10 data-mining bigdata algorithms outlier

1

Bibliothèques pour (algorithmes de propagation d'étiquettes / exploration fréquente de sous-graphiques) pour les graphiques en R

Description générale du problème J'ai un graphique où certains sommets sont étiquetés avec un type avec 3 ou 4 valeurs possibles. Pour les autres sommets, le type est inconnu. Mon objectif est d'utiliser le graphique pour prédire le type des sommets qui ne sont pas étiquetés. Cadre possible Je soupçonne …

10 classification r graphs

2

Extraire la chaîne canonique d'une liste de chaînes bruyantes

J'ai des milliers de listes de chaînes et chaque liste contient environ 10 chaînes. La plupart des chaînes d'une liste donnée sont très similaires, bien que certaines chaînes soient (rarement) complètement sans rapport avec les autres et que certaines chaînes contiennent des mots non pertinents. Ils peuvent être considérés comme …

10 nlp similarity information-retrieval

2

la mise en œuvre de la différence temporelle aux échecs

J'ai développé un programme d'échecs qui utilise un algorithme d'élagage alpha-bêta et une fonction d'évaluation qui évalue les positions en utilisant les caractéristiques suivantes à savoir le matériel, la sécurité du roi, la mobilité, la structure du pion et les pièces piégées, etc. ... Ma fonction d'évaluation est dérivé de …

10 machine-learning algorithms reinforcement-learning

4

Quelles étapes initiales dois-je utiliser pour comprendre les grands ensembles de données et quels outils dois-je utiliser?

Avertissement: je suis un débutant complet en matière d'apprentissage automatique, mais désireux d'apprendre. J'ai un grand ensemble de données et j'essaie de trouver un modèle. Il peut / peut ne pas y avoir de corrélation entre les données, soit avec des variables connues, soit avec des variables contenues dans les …

10 machine-learning data-mining tools beginner

4

Pourquoi plusieurs types de modèles pourraient-ils donner des résultats presque identiques?

J'ai analysé un ensemble de données d'environ 400k enregistrements et 9 variables La variable dépendante est binaire. J'ai ajusté une régression logistique, un arbre de régression, une forêt aléatoire et un arbre boosté par gradient. Tous donnent des valeurs d'ajustement virtuellement identiques lorsque je les valide sur un autre ensemble …

10 data-mining classification binary

3

Comment les différentes techniques statistiques (régression, ACP, etc.) évoluent-elles avec la taille et la dimension de l'échantillon?

Existe-t-il un tableau général connu des techniques statistiques expliquant comment elles évoluent avec la taille et la dimension de l'échantillon? Par exemple, un de mes amis m'a dit l'autre jour que le temps de calcul d'un simple tri rapide des données unidimensionnelles de taille n correspond à n * log …

10 bigdata statistics efficiency scalability

3

Statistiques + Informatique = Science des données? [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour Data Science Stack Exchange. Fermé il y a 5 ans . je veux devenir un scientifique des données . J'ai étudié …

10 machine-learning statistics career

1

Prédiction avec des caractéristiques non atomiques

Je voudrais utiliser des données non atomiques, comme fonctionnalité pour une prédiction. Supposons que j'ai une table avec ces fonctionnalités: - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ …

10 machine-learning

2

Prévision du marché des changes avec les réseaux de neurones

Je voudrais utiliser ANN pour automatiser le trading de devises, de préférence USD / EUR ou USD / GBP. Je sais que c'est difficile et peut-être pas simple. J'ai déjà lu quelques articles et fait quelques expériences mais sans trop de chance. J'aimerais obtenir des conseils d'EXPERTS pour que cela …

10 neural-network

3

Gérer un ensemble de fonctionnalités en constante augmentation

Je travaille sur un système de détection de fraude. Dans ce domaine, de nouvelles fraudes apparaissent régulièrement, de sorte que de nouvelles fonctionnalités doivent être ajoutées au modèle de manière continue. Je me demande quelle est la meilleure façon de gérer cela (du point de vue du processus de développement)? …

10 machine-learning bigdata