Science des données

3

Les arbres de régression peuvent-ils prédire en continu?

Supposons que j'ai une fonction lisse comme . J'ai un ensemble d'entraînement D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} et, bien sûr, je ne connais pas f bien que je puisse évaluer f où je veux.f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) …

11 predictive-modeling regression decision-trees

2

Comment convertir des données catégorielles en données numériques dans Pyspark

J'utilise le bloc-notes Ipython pour travailler avec des applications pyspark. J'ai un fichier CSV avec beaucoup de colonnes catégorielles pour déterminer si le revenu tombe sous ou au-dessus de la plage 50k. Je voudrais effectuer un algorithme de classification prenant toutes les entrées pour déterminer la plage de revenu. J'ai …

11 python apache-spark categorical-data pyspark

3

Quelle régression utiliser pour calculer le résultat d'une élection dans un système multipartite?

Je veux faire une prédiction du résultat des élections législatives. Ma sortie sera le% que chaque partie reçoit. Il y a plus de 2 partis, la régression logistique n'est donc pas une option viable. Je pourrais faire une régression distincte pour chaque parti mais dans ce cas, les résultats seraient …

11 classification r python regression predictive-modeling

2

Conséquence de la mise à l'échelle des fonctionnalités

J'utilise actuellement SVM et j'adapte mes fonctionnalités d'entraînement à la plage de [0,1]. J'ai d'abord ajusté / transformé mon ensemble d'entraînement, puis j'applique la même transformation à mon ensemble de test. Par exemple: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform …

11 machine-learning svm feature-scaling

4

Utilisation du clustering dans le traitement de texte

Bonjour, c'est ma première question dans la pile Data Science. Je veux créer un algorithme de classification de texte. Supposons que j'ai un grand ensemble de textes et d'articles. Disons environ 5000 textes en clair. J'utilise d'abord une fonction simple pour déterminer la fréquence de tous les mots de quatre …

11 text-mining clustering

3

Relation entre KS, AUROC et Gini

Les statistiques de validation de modèle communes comme le test de Kolmogorov – Smirnov (KS), l' AUROC et le coefficient de Gini sont tous fonctionnellement liés. Cependant, ma question concerne la preuve de la manière dont ces éléments sont tous liés. Je suis curieux de savoir si quelqu'un peut m'aider …

11 data-mining statistics predictive-modeling accuracy

2

Tenue de livres des essais et des résultats

Je suis un chercheur pratique et j'aime tester des solutions viables, j'ai donc tendance à faire beaucoup d'expériences. Par exemple, si je calcule un score de similitude entre les documents, je pourrais vouloir essayer de nombreuses mesures. En fait, pour chaque mesure, je devrais peut-être effectuer plusieurs analyses pour tester …

11 tools experiments

1

Implémentation de t-SNE Python: divergence Kullback-Leibler

t-SNE, comme dans [1], fonctionne en réduisant progressivement la divergence de Kullback-Leibler (KL), jusqu'à ce qu'une certaine condition soit remplie. Les créateurs de t-SNE suggèrent d'utiliser la divergence KL comme critère de performance pour les visualisations: vous pouvez comparer les divergences Kullback-Leibler rapportées par t-SNE. Il est tout à fait …

11 machine-learning python

3

Apprentissage des fonctionnalités non supervisé pour NER

J'ai implémenté le système NER avec l'utilisation de l'algorithme CRF avec mes fonctionnalités artisanales qui ont donné de très bons résultats. Le fait est que j'ai utilisé beaucoup de fonctionnalités différentes, y compris des balises POS et des lemmes. Maintenant, je veux faire le même NER pour une langue différente. …

11 nlp text-mining feature-extraction

4

Travailler avec des clusters HPC

Dans mon université, nous avons un cluster informatique HPC. J'utilise le cluster pour former des classificateurs et ainsi de suite. Donc, généralement, pour envoyer un travail au cluster, (par exemple, script scythit-learn python), j'ai besoin d'écrire un script Bash qui contient (entre autres) une commande comme qsub script.py. Cependant, je …

11 bigdata data-mining

3

Visualisation des données pour l'analyse de modèle (indépendant du langage, mais R préféré)

Je veux tracer les octets d'une image disque afin de comprendre un modèle en eux. Il s'agit principalement d'une tâche académique, car je suis presque sûr que ce modèle a été créé par un programme de test de disque, mais j'aimerais quand même le rétroconcevoir. Je sais déjà que le …

11 r visualization

4

Où puis-je télécharger les données historiques de capitalisation boursière et de chiffre d'affaires quotidien pour les actions?

Il existe de nombreuses sources qui fournissent les données historiques sur les stocks, mais elles ne fournissent que les champs OHLC ainsi que le volume et la clôture ajustée. Quelques sources que j'ai trouvées fournissent également des ensembles de données de capitalisation boursière, mais elles sont limitées aux actions américaines. …

11 dataset

4

La régression logistique est-elle en fait un algorithme de régression?

La définition habituelle de la régression (pour autant que je sache) est de prédire une variable de sortie continue à partir d'un ensemble donné de variables d'entrée . La régression logistique est un algorithme de classification binaire, elle produit donc une sortie catégorielle. Est-ce vraiment un algorithme de régression? Si …

11 algorithms logistic-regression

3

Ensemble de données axé sur la science des données / question de recherche pour la thèse de maîtrise en statistique

J'aimerais explorer la «science des données». Le terme me semble un peu vague, mais je m'attends à ce qu'il nécessite: l'apprentissage automatique (plutôt que les statistiques traditionnelles); un ensemble de données suffisamment grand pour exécuter des analyses sur des clusters. Quels sont les bons ensembles de données et problèmes, accessibles …

11 statistics education knowledge-base definitions

3

Comment traiter les requêtes en langage naturel?

Je suis curieux de savoir comment interroger le langage naturel. Stanford possède ce qui semble être un ensemble solide de logiciels pour le traitement du langage naturel . J'ai également vu la bibliothèque Apache OpenNLP et l' architecture générale pour l'ingénierie du texte . Il existe une quantité incroyable d'utilisations …

11 nlp