Science des données scikit-learn

1

Combien de cellules LSTM dois-je utiliser?

Existe-t-il des règles générales (ou des règles réelles) concernant la quantité minimale, maximale et "raisonnable" de cellules LSTM que je devrais utiliser? Plus précisément, je me rapporte à BasicLSTMCell de TensorFlow et à la num_unitspropriété. Veuillez supposer que j'ai un problème de classification défini par: t - number of time …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

Réduction efficace de la dimensionnalité pour un grand ensemble de données

J'ai un ensemble de données avec ~ 1M lignes et ~ 500K fonctionnalités clairsemées. Je veux réduire la dimensionnalité quelque part dans l'ordre des entités denses 1K-5K. sklearn.decomposition.PCAne fonctionne pas sur des données éparses, et j'ai essayé d'utiliser sklearn.decomposition.TruncatedSVDmais j'obtiens une erreur de mémoire assez rapidement. Quelles sont mes options …

12 python scikit-learn dimensionality-reduction

2

Quand utiliser Standard Scaler et quand Normalizer?

Je comprends ce que fait Standard Scalar et ce que fait Normalizer, selon la documentation de scikit: Normalizer , Standard Scaler . Je sais quand Standard Scaler est appliqué. Mais dans quel scénario le Normalizer est-il appliqué? Y a-t-il des scénarios où l'un est préféré à l'autre?

12 python scikit-learn data-cleaning normalization

2

Scikit-learn utilise-t-il la régularisation par défaut?

Je viens d'ajuster une courbe logistique à de fausses données. J'ai fait des données essentiellement une fonction pas à pas. data = -------------++++++++++++++ Mais quand je regarde la courbe ajustée, la pente est très petite. La fonction qui minimise le mieux la fonction de coût, en supposant une entropie croisée, …

12 logistic-regression scikit-learn

3

Existe-t-il de bons modèles de langage prêts à l'emploi pour python?

Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

Comment utiliser la propagation d'étiquettes Scikit-Learn sur des données structurées graphiquement?

Dans le cadre de mes recherches, je m'intéresse à la propagation d'étiquettes sur un graphe. Je suis particulièrement intéressé par ces deux méthodes: Xiaojin Zhu et Zoubin Ghahramani. Apprendre à partir de données étiquetées et non étiquetées avec propagation d'étiquettes. Rapport technique CMU-CALD-02-107, Université Carnegie Mellon, 2002 http://pages.cs.wisc.edu/~jerryzhu/pub/CMU-CALD-02-107.pdf Dengyong Zhou, …

11 scikit-learn graphs

3

Quelle est la différence entre un vectoriseur de hachage et un vectoriseur tfidf

Je convertis un corpus de documents texte en vecteurs de mots pour chaque document. J'ai essayé ceci en utilisant un TfidfVectorizer et un HashingVectorizer Je comprends qu'un a HashingVectorizerne prend pas en compte les IDFscores comme un le TfidfVectorizerfait. La raison pour laquelle je travaille toujours avec HashingVectorizerest la flexibilité …

11 nlp scikit-learn text-mining tfidf

1

Paramètre scikit-learn n_jobs sur l'utilisation du processeur et la mémoire

Dans la plupart des estimateurs sur scikit-learn, il existe un n_jobsparamètre dans fit/ predictmethods pour créer des emplois parallèles à l'aide de joblib. J'ai remarqué que le définir sur -1crée un seul processus Python et maximise les cœurs, ce qui fait que l'utilisation du processeur atteint 2500% en plus. Ceci …

11 python scikit-learn

3

Meilleures langues pour le calcul scientifique [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 5 ans . Il semble que la plupart des …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Comment encoder une classe avec 24 000 catégories?

Je travaille actuellement sur un modèle de régression logistique pour la génomique. L'un des champs de saisie que je souhaite inclure en tant que covariable est genes. Il existe environ 24 000 gènes connus. Il existe de nombreuses fonctionnalités avec ce niveau de variabilité en biologie computationnelle et des centaines …

10 machine-learning keras scikit-learn

3

Prédisez le meilleur moment de l'appel

J'ai un ensemble de données comprenant un ensemble de clients dans différentes villes de Californie, l'heure de l'appel pour chaque client et le statut de l'appel (Vrai si le client répond à l'appel et Faux si le client ne répond pas). Je dois trouver un moment approprié pour appeler de …

10 machine-learning classification regression scikit-learn

3

Construire un modèle d'apprentissage automatique pour prédire les rendements des cultures en fonction des données environnementales

J'ai un ensemble de données contenant des données sur la température, les précipitations et les rendements de soja pour une ferme pendant 10 ans (2005 - 2014). Je voudrais prédire les rendements pour 2015 sur la base de ces données. Veuillez noter que l'ensemble de données a des valeurs QUOTIDIENNES …

10 python scikit-learn pandas

2

Combien de temps les classificateurs scikit prennent-ils pour classer?

Je prévois d'utiliser le classificateur scikit linear support vector machine (SVM) pour la classification de texte sur un corpus comprenant 1 million de documents étiquetés. Ce que je prévois de faire, c'est lorsqu'un utilisateur saisit un mot clé, le classificateur le classera d'abord dans une catégorie, puis une requête de …

10 machine-learning classification python scikit-learn

2

Quelle est la méthode la plus efficace pour l'optimisation hyperparamétrique dans scikit-learn?

Un aperçu du processus d'optimisation des hyperparamètres dans scikit-learn est ici . Une recherche exhaustive dans la grille trouvera l'ensemble optimal d'hyperparamètres pour un modèle. L'inconvénient est que la recherche exhaustive de la grille est lente. La recherche aléatoire est plus rapide que la recherche dans la grille mais présente …

10 scikit-learn hyperparameter hyperparameter-tuning grid-search randomized-algorithms

2

Max_depth dans scikit est-il l'équivalent de l'élagage dans les arbres de décision?

J'analysais le classificateur créé à l'aide d'un arbre de décision. Il y a un paramètre de réglage appelé max_depth dans l'arbre de décision de scikit. Est-ce l'équivalent de l'élagage d'un arbre de décision? Sinon, comment pourrais-je tailler un arbre de décision à l'aide de scikit? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt …

10 machine-learning python scikit-learn decision-trees supervised-learning

Questions marquées «scikit-learn»