Supposons que j'ai une fonction lisse comme . J'ai un ensemble d'entraînement D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} et, bien sûr, je ne connais pas f bien que je puisse évaluer f où je veux.f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) …
J'utilise le bloc-notes Ipython pour travailler avec des applications pyspark. J'ai un fichier CSV avec beaucoup de colonnes catégorielles pour déterminer si le revenu tombe sous ou au-dessus de la plage 50k. Je voudrais effectuer un algorithme de classification prenant toutes les entrées pour déterminer la plage de revenu. J'ai …
Je veux faire une prédiction du résultat des élections législatives. Ma sortie sera le% que chaque partie reçoit. Il y a plus de 2 partis, la régression logistique n'est donc pas une option viable. Je pourrais faire une régression distincte pour chaque parti mais dans ce cas, les résultats seraient …
J'utilise actuellement SVM et j'adapte mes fonctionnalités d'entraînement à la plage de [0,1]. J'ai d'abord ajusté / transformé mon ensemble d'entraînement, puis j'applique la même transformation à mon ensemble de test. Par exemple: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) ### Perform …
Bonjour, c'est ma première question dans la pile Data Science. Je veux créer un algorithme de classification de texte. Supposons que j'ai un grand ensemble de textes et d'articles. Disons environ 5000 textes en clair. J'utilise d'abord une fonction simple pour déterminer la fréquence de tous les mots de quatre …
Les statistiques de validation de modèle communes comme le test de Kolmogorov – Smirnov (KS), l' AUROC et le coefficient de Gini sont tous fonctionnellement liés. Cependant, ma question concerne la preuve de la manière dont ces éléments sont tous liés. Je suis curieux de savoir si quelqu'un peut m'aider …
Je suis un chercheur pratique et j'aime tester des solutions viables, j'ai donc tendance à faire beaucoup d'expériences. Par exemple, si je calcule un score de similitude entre les documents, je pourrais vouloir essayer de nombreuses mesures. En fait, pour chaque mesure, je devrais peut-être effectuer plusieurs analyses pour tester …
t-SNE, comme dans [1], fonctionne en réduisant progressivement la divergence de Kullback-Leibler (KL), jusqu'à ce qu'une certaine condition soit remplie. Les créateurs de t-SNE suggèrent d'utiliser la divergence KL comme critère de performance pour les visualisations: vous pouvez comparer les divergences Kullback-Leibler rapportées par t-SNE. Il est tout à fait …
J'ai implémenté le système NER avec l'utilisation de l'algorithme CRF avec mes fonctionnalités artisanales qui ont donné de très bons résultats. Le fait est que j'ai utilisé beaucoup de fonctionnalités différentes, y compris des balises POS et des lemmes. Maintenant, je veux faire le même NER pour une langue différente. …
Dans mon université, nous avons un cluster informatique HPC. J'utilise le cluster pour former des classificateurs et ainsi de suite. Donc, généralement, pour envoyer un travail au cluster, (par exemple, script scythit-learn python), j'ai besoin d'écrire un script Bash qui contient (entre autres) une commande comme qsub script.py. Cependant, je …
Je veux tracer les octets d'une image disque afin de comprendre un modèle en eux. Il s'agit principalement d'une tâche académique, car je suis presque sûr que ce modèle a été créé par un programme de test de disque, mais j'aimerais quand même le rétroconcevoir. Je sais déjà que le …
Il existe de nombreuses sources qui fournissent les données historiques sur les stocks, mais elles ne fournissent que les champs OHLC ainsi que le volume et la clôture ajustée. Quelques sources que j'ai trouvées fournissent également des ensembles de données de capitalisation boursière, mais elles sont limitées aux actions américaines. …
La définition habituelle de la régression (pour autant que je sache) est de prédire une variable de sortie continue à partir d'un ensemble donné de variables d'entrée . La régression logistique est un algorithme de classification binaire, elle produit donc une sortie catégorielle. Est-ce vraiment un algorithme de régression? Si …
J'aimerais explorer la «science des données». Le terme me semble un peu vague, mais je m'attends à ce qu'il nécessite: l'apprentissage automatique (plutôt que les statistiques traditionnelles); un ensemble de données suffisamment grand pour exécuter des analyses sur des clusters. Quels sont les bons ensembles de données et problèmes, accessibles …
Je suis curieux de savoir comment interroger le langage naturel. Stanford possède ce qui semble être un ensemble solide de logiciels pour le traitement du langage naturel . J'ai également vu la bibliothèque Apache OpenNLP et l' architecture générale pour l'ingénierie du texte . Il existe une quantité incroyable d'utilisations …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.