Science des données

6

Définition d'un modèle en machine learning

Cette définition ne s'applique pas tout à fait car nous ne supposons pas toujours une distribution sous-jacente. Alors qu'est-ce qu'un modèle vraiment? Un GBM avec des hyperparamètres spécifiés peut-il être considéré comme un modèle? Un modèle est-il un ensemble de règles?

11 machine-learning

3

Comment créer un nuage de points PCA interactif en Python?

La bibliothèque matplotlib est très performante mais manque d'interactivité, en particulier à l'intérieur de Jupyter Notebook. Je voudrais une bonne ligne de traçage outil comme plot.ly .

11 python visualization pca jupyter

2

Classification de documents à l'aide d'un réseau neuronal convolutif

J'essaie d'utiliser CNN (réseau neuronal convolutionnel) pour classer les documents. CNN pour les textes / phrases courts a été étudié dans de nombreux articles. Cependant, il semble qu'aucun article n'ait utilisé CNN pour un texte ou un document long. Mon problème est qu'il y a trop de fonctionnalités d'un document. …

11 classification neural-network text-mining convnet word2vec

2

Comment fonctionnent les «reconnaissants d'intention»?

Alexa d'Amazon , Mix de Nuance et Wit.ai de Facebook utilisent tous un système similaire pour spécifier comment convertir une commande de texte en intention - c'est-à-dire quelque chose qu'un ordinateur comprendrait. Je ne sais pas quel est le nom "officiel" de ceci, mais je l'appelle "reconnaissance d'intention". Fondamentalement, un …

11 machine-learning nlp

1

Comment déterminer si la séquence de caractères est un mot anglais ou du bruit

Quel genre de fonctionnalités que vous essayerez d'extraire de la liste de mots pour une prédiction future, est-ce un mot existant ou simplement un désordre de caractères? Il y a une description de la tâche que j'ai trouvée là-bas . Vous devez écrire un programme qui peut répondre si un …

11 machine-learning nlp text-mining algorithms

1

application de word2vec sur de petits fichiers texte

Je suis totalement nouveau sur word2vec, alors veuillez le porter avec moi. J'ai un ensemble de fichiers texte contenant chacun un ensemble de tweets, entre 1000-3000. J'ai choisi un mot clé commun ("kw1") et souhaite trouver des termes sémantiquement pertinents pour "kw1" en utilisant word2vec. Par exemple, si le mot-clé …

11 machine-learning nlp text-mining

4

Comment word2vec peut être utilisé pour identifier les mots invisibles et les relier à des données déjà formées

Je travaillais sur le modèle word2vec gensim et je l'ai trouvé très intéressant. Je suis intéressé à trouver comment un mot inconnu / invisible lorsqu'il est vérifié avec le modèle pourra obtenir des termes similaires du modèle formé. Est-ce possible? Word2vec peut-il être modifié pour cela? Ou le corpus de …

11 nlp deep-learning word-embeddings unsupervised-learning

3

Classes déséquilibrées - Comment minimiser les faux négatifs?

J'ai un ensemble de données qui a un attribut de classe binaire. Il y a 623 instances de classe +1 (cancer positif) et 101 671 instances de classe -1 (cancer négatif). J'ai essayé divers algorithmes (Naive Bayes, Random Forest, AODE, C4.5) et tous ont des taux de faux négatifs inacceptables. …

11 classification random-forest decision-trees unbalanced-classes

3

Problème avec IPython / Jupyter sur Spark (alias non reconnu)

Je travaille à la mise en place d'un ensemble de machines virtuelles pour expérimenter avec Spark avant de dépenser et de dépenser de l'argent pour construire un cluster avec du matériel. Note rapide: je suis un universitaire avec une formation en apprentissage automatique appliqué et je travaille un peu en …

11 python apache-spark pyspark ipython

4

Comment éviter le sur-ajustement dans une forêt aléatoire?

Je veux éviter le sur-ajustement dans une forêt aléatoire. À cet égard, j'ai l'intention d'utiliser mtry, nodesize et maxnodes etc. Pourriez-vous s'il vous plaît m'aider à choisir des valeurs pour ces paramètres? J'utilise R. Aussi, si possible, dites-moi comment je peux utiliser la validation croisée k-fold pour la forêt aléatoire …

11 machine-learning data-mining r predictive-modeling random-forest

7

Grattage web LinkedIn

J'ai récemment découvert un nouveau package R pour la connexion à l'API LinkedIn. Malheureusement, l'API LinkedIn semble assez limitée pour commencer; par exemple, vous ne pouvez obtenir que des données de base sur les entreprises, ce qui est séparé des données sur les individus. Je souhaite obtenir des données sur …

11 data-mining social-network-analysis crawling scraping

3

Machines de factorisation conscientes du terrain

Quelqu'un peut-il expliquer comment les machines de factorisation conscientes du terrain (FFM) se comparent aux machines de factorisation standard (FM)? Standard: http://www.ismll.uni-hildesheim.de/pub/pdfs/Rendle2010FM.pdf "Field Aware": http://www.csie.ntu.edu.tw/~r01922136/kaggle-2014-criteo.pdf

11 machine-learning recommender-system

1

Solutions pour l'identification continue des clusters en ligne?

Permettez-moi de vous montrer un exemple d'une application de clustering en ligne hypothétique: Au temps n, les points 1, 2, 3, 4 sont attribués au groupe bleu A et les points b, 5, 6, 7 sont attribués au groupe rouge B. Au temps n + 1, un nouveau point a …

11 machine-learning clustering

2

Réseau neuronal pour la surveillance des serveurs

Je regarde pybrain pour prendre les alarmes du moniteur de serveur et déterminer la cause première d'un problème. Je suis heureux de le former à l'aide d'un apprentissage supervisé et de gérer les ensembles de données de formation. Les données sont structurées quelque chose comme ceci: Type de serveur A …

11 machine-learning neural-network

1

Fisher Scoring descente de coordonnées v / s pour MLE en R

La fonction de base R glm()utilise Fishers Scoring pour MLE, tandis que le glmnetsemble utiliser la méthode de descente de coordonnées pour résoudre la même équation. La descente de coordonnées est plus efficace en temps que Fisher Scoring, car Fisher Scoring calcule la matrice dérivée de second ordre, en plus …

11 machine-learning r algorithms optimization