Science des données

Questions-réponses pour les professionnels de la science des données, les spécialistes en apprentissage automatique et les personnes intéressées




2
Conséquence de la mise à l'échelle des fonctionnalités
J'utilise actuellement SVM et j'adapte mes fonctionnalités d'entraînement à la plage de [0,1]. J'ai d'abord ajusté / transformé mon ensemble d'entraînement, puis j'applique la même transformation à mon ensemble de test. Par exemple: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform …

4
Utilisation du clustering dans le traitement de texte
Bonjour, c'est ma première question dans la pile Data Science. Je veux créer un algorithme de classification de texte. Supposons que j'ai un grand ensemble de textes et d'articles. Disons environ 5000 textes en clair. J'utilise d'abord une fonction simple pour déterminer la fréquence de tous les mots de quatre …

3
Relation entre KS, AUROC et Gini
Les statistiques de validation de modèle communes comme le test de Kolmogorov – Smirnov (KS), l' AUROC et le coefficient de Gini sont tous fonctionnellement liés. Cependant, ma question concerne la preuve de la manière dont ces éléments sont tous liés. Je suis curieux de savoir si quelqu'un peut m'aider …

2
Tenue de livres des essais et des résultats
Je suis un chercheur pratique et j'aime tester des solutions viables, j'ai donc tendance à faire beaucoup d'expériences. Par exemple, si je calcule un score de similitude entre les documents, je pourrais vouloir essayer de nombreuses mesures. En fait, pour chaque mesure, je devrais peut-être effectuer plusieurs analyses pour tester …

1
Implémentation de t-SNE Python: divergence Kullback-Leibler
t-SNE, comme dans [1], fonctionne en réduisant progressivement la divergence de Kullback-Leibler (KL), jusqu'à ce qu'une certaine condition soit remplie. Les créateurs de t-SNE suggèrent d'utiliser la divergence KL comme critère de performance pour les visualisations: vous pouvez comparer les divergences Kullback-Leibler rapportées par t-SNE. Il est tout à fait …


4
Travailler avec des clusters HPC
Dans mon université, nous avons un cluster informatique HPC. J'utilise le cluster pour former des classificateurs et ainsi de suite. Donc, généralement, pour envoyer un travail au cluster, (par exemple, script scythit-learn python), j'ai besoin d'écrire un script Bash qui contient (entre autres) une commande comme qsub script.py. Cependant, je …




3
Ensemble de données axé sur la science des données / question de recherche pour la thèse de maîtrise en statistique
J'aimerais explorer la «science des données». Le terme me semble un peu vague, mais je m'attends à ce qu'il nécessite: l'apprentissage automatique (plutôt que les statistiques traditionnelles); un ensemble de données suffisamment grand pour exécuter des analyses sur des clusters. Quels sont les bons ensembles de données et problèmes, accessibles …

3
Comment traiter les requêtes en langage naturel?
Je suis curieux de savoir comment interroger le langage naturel. Stanford possède ce qui semble être un ensemble solide de logiciels pour le traitement du langage naturel . J'ai également vu la bibliothèque Apache OpenNLP et l' architecture générale pour l'ingénierie du texte . Il existe une quantité incroyable d'utilisations …
11 nlp 

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.