Science des données

5

L'importance des fonctionnalités avec scikit-learn Random Forest montre un écart-type très élevé

J'utilise scikit-learn Random Forest Classifier et je veux tracer l'importance des fonctionnalités, comme dans cet exemple . Cependant, mon résultat est complètement différent, dans le sens où l'écart-type de l'importance des fonctionnalités est presque toujours plus important que l'importance des fonctionnalités elle-même (voir l'image jointe). Est-il possible d'avoir un tel …

13 python random-forest

1

Reconnaître une grammaire dans une séquence de jetons flous

J'ai des documents texte qui contiennent principalement des listes d'articles. Chaque élément est un groupe de plusieurs jetons de différents types: prénom, nom, date de naissance, numéro de téléphone, ville, profession, etc. Un jeton est un groupe de mots. Les articles peuvent se trouver sur plusieurs lignes. Les éléments d'un …

13 data-mining clustering text-mining time-series correlation

2

Régression linéaire avec fonction de coût non symétrique?

Je veux prédire une valeur et j'essaie d'obtenir une prédiction qui optimise entre être aussi bas que possible, mais toujours plus grand que . En d'autres termes: Y ( x ) Y ( x ) coût { Y ( x ) ≳ Y ( x ) } > > coût …

13 machine-learning logistic-regression

3

Avec une classe déséquilibrée, dois-je utiliser le sous-échantillonnage sur mes jeux de données de validation / test?

Je suis un débutant en apprentissage automatique et je suis confronté à une situation. Je travaille sur un problème d'enchères en temps réel, avec l'ensemble de données IPinYou et j'essaie de faire une prédiction de clic. Le fait est que, comme vous le savez peut-être, l'ensemble de données est très …

13 machine-learning dataset sampling

2

Comment calculer la moyenne d'une colonne de trame de données et trouver les 10% supérieurs

Je suis très nouveau sur Scala et Spark, et je travaille sur des exercices autodidactes utilisant des statistiques de baseball. J'utilise une classe de cas pour créer un RDD et attribuer un schéma aux données, puis je le transforme en DataFrame afin que je puisse utiliser SparkSQL pour sélectionner des …

13 apache-spark scala

2

Algorithme efficace pour calculer la courbe ROC d'un classificateur composé d'un ensemble de classificateurs disjoints

Supposons que j'ai des classificateurs C_1 ... C_n qui sont disjoints dans le sens où aucun ne retournera vrai sur la même entrée (par exemple les nœuds dans un arbre de décision). Je veux construire un nouveau classificateur qui est l'union d'un sous-ensemble de ceux-ci (par exemple, je veux décider …

13 algorithms

1

Quelle est la différence entre la génération et l'extraction de fonctionnalités?

Quelqu'un peut-il me dire quel est le but de la génération de fonctionnalités? et pourquoi l'enrichissement de l'espace des fonctionnalités est nécessaire avant de classer une image? Est-ce une étape nécessaire? Existe-t-il une méthode pour enrichir l'espace des fonctionnalités?

13 machine-learning classification

1

Neo4j vs OrientDB vs Titan

Je travaille sur un projet de science des données lié à l'exploration des relations sociales et j'ai besoin de stocker des données dans certaines bases de données graphiques. Au départ, j'ai choisi Neo4j comme base de données. Mais il semble que Neo4j ne soit pas à l'échelle. L'alternative que j'ai …

13 data-mining graphs databases social-network-analysis

7

Je suis programmeur, comment entrer dans le domaine de la science des données?

Tout d'abord, ce terme semble si obscur. Quoi qu'il en soit .. Je suis programmeur logiciel. L'un des langages que je peux coder est Python. En parlant de données, je peux utiliser SQL et faire du Data Scraping. Ce que j'ai découvert jusqu'à présent après avoir lu tellement d'articles que …

13 beginner career

1

Forêts aléatoires en ligne en ajoutant plus d'arbres de décisions uniques

Une forêt aléatoire (RF) est créée par un ensemble d'arbres de décision (DT). En utilisant l'ensachage, chaque DT est formé dans un sous-ensemble de données différent. Par conséquent, existe-t-il un moyen de mettre en œuvre une forêt aléatoire en ligne en ajoutant plus de décision sur les nouvelles données? Par …

13 random-forest online-learning

2

Visualisation de la formation du réseau neuronal profond

J'essaie de trouver un équivalent de diagrammes de Hinton pour les réseaux multicouches pour tracer les poids pendant l'entraînement. Le réseau formé est quelque peu similaire à un SRN profond, c'est-à-dire qu'il a un grand nombre de matrices de poids multiples, ce qui rendrait l'intrigue simultanée de plusieurs diagrammes de …

13 machine-learning neural-network visualization deep-learning

2

Quelles fonctionnalités sont généralement utilisées à partir des arbres d'analyse dans le processus de classification en PNL?

J'explore différents types de structures d'arbres d'analyse. Les deux structures d'arbre d'analyse largement connues sont: a) l'arbre d'analyse basé sur les circonscriptions et b) les structures d'arbre d'analyse basées sur les dépendances. Je suis capable d'utiliser les deux types de structures d'arbre d'analyse en utilisant le package Stanford NLP. Cependant, …

13 machine-learning nlp feature-selection feature-extraction

2

Analyser les résultats des tests A / B qui ne sont pas normalement distribués, en utilisant un test t indépendant

J'ai un ensemble de résultats d'un test A / B (un groupe de contrôle, un groupe d'entités) qui ne correspondent pas à une distribution normale. En fait, la distribution ressemble plus à la distribution de Landau. Je crois que le test t indépendant nécessite que les échantillons soient au moins …

13 dataset statistics ab-test

4

Étudier les algorithmes d'apprentissage automatique: profondeur de la compréhension par rapport au nombre d'algorithmes

Récemment, j'ai été initié au domaine de la science des données (cela fait environ 6 mois), et j'ai commencé le voyage avec Machine Learning Course par Andrew Ng et un poste qui a commencé à travailler sur la spécialisation en science des données par JHU. Sur le plan des applications …

13 machine-learning

1

Quand une base de données relationnelle a de meilleures performances qu'une non relationnelle

Quand une base de données relationnelle, comme MySQL, a de meilleures performances qu'une non relationnelle, comme MongoDB? Un autre jour, j'ai vu une question sur Quora, pourquoi Quora utilise toujours MySQL comme backend, et que leurs performances sont toujours bonnes.

13 bigdata performance databases nosql