Science des données predictive-modeling

8

Pourquoi la suralimentation est-elle mauvaise dans l'apprentissage automatique?

La logique dit souvent qu'en surajustant un modèle, sa capacité à généraliser est limitée, bien que cela puisse simplement signifier que l'ajustement excessif empêche un modèle de s'améliorer après une certaine complexité. La suradaptation provoque-t-elle une détérioration des modèles, quelle que soit la complexité des données, et si oui, pourquoi …

49 machine-learning predictive-modeling

4

Un modèle devrait-il être recyclé si de nouvelles observations sont disponibles?

Donc, je n'ai pas pu trouver de littérature sur ce sujet mais il semble que quelque chose mérite réflexion: Quelles sont les meilleures pratiques en matière de formation et d'optimisation de modèles si de nouvelles observations sont disponibles? Existe-t-il un moyen de déterminer la période / fréquence de recyclage d'un …

28 machine-learning predictive-modeling optimization training

1

Prédiction de séries chronologiques à l'aide de LSTM: importance de rendre les séries chronologiques stationnaires

Dans ce lien sur la stationnarité et la différenciation , il a été mentionné que les modèles comme ARIMA nécessitent une série chronologique stationnaire pour la prévision car ses propriétés statistiques comme la moyenne, la variance, l'autocorrélation, etc. sont constantes dans le temps. Étant donné que les RNN ont une …

21 deep-learning predictive-modeling time-series forecast lstm

2

Prédire un mot à l'aide du modèle Word2vec

Vu infliger une peine: « Quand j'ouvre la ?? porte , il commence à chauffer automatiquement » Je voudrais obtenir la liste des mots possibles en ?? avec une probabilité. Le concept de base utilisé dans le modèle word2vec est de «prédire» un mot en fonction du contexte environnant. Une …

20 nlp predictive-modeling word-embeddings

5

Fusionner des données rares et denses dans l'apprentissage automatique pour améliorer les performances

J'ai des caractéristiques clairsemées qui sont prédictives, j'ai aussi des caractéristiques denses qui sont également prédictives. J'ai besoin de combiner ces fonctionnalités pour améliorer les performances globales du classificateur. Maintenant, le problème est que lorsque j'essaie de les combiner, les entités denses ont tendance à dominer davantage les entités clairsemées, …

17 machine-learning classification predictive-modeling scikit-learn supervised-learning

5

agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Comment prédire les probabilités dans xgboost?

La fonction de prédiction ci-dessous donne également des valeurs -ve, il ne peut donc pas s'agir de probabilités. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) J'ai google et essayé pred_s <- predict(bst, x_mat_s2,type="response") …

16 machine-learning r predictive-modeling decision-trees

3

Pourquoi les ensembles sont-ils si déraisonnablement efficaces

Il semble être devenu axiomatique qu'un ensemble d'apprenants aboutisse aux meilleurs résultats de modèles possibles - et il devient de plus en plus rare, par exemple, que des modèles uniques gagnent des compétitions telles que Kaggle. Y a-t-il une explication théorique pour expliquer pourquoi les ensembles sont si efficaces?

14 machine-learning data-mining predictive-modeling

1

Hashing Trick - ce qui se passe réellement

Lorsque les algorithmes ML, par exemple Vowpal Wabbit ou certaines des machines de factorisation remportant des concours de taux de clics ( Kaggle ), mentionnent que les fonctionnalités sont «hachées», qu'est-ce que cela signifie réellement pour le modèle? Disons qu'il existe une variable qui représente l'ID d'une annonce Internet, qui …

12 machine-learning predictive-modeling kaggle

1

Combien de cellules LSTM dois-je utiliser?

Existe-t-il des règles générales (ou des règles réelles) concernant la quantité minimale, maximale et "raisonnable" de cellules LSTM que je devrais utiliser? Plus précisément, je me rapporte à BasicLSTMCell de TensorFlow et à la num_unitspropriété. Veuillez supposer que j'ai un problème de classification défini par: t - number of time …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Existe-t-il de bons modèles de langage prêts à l'emploi pour python?

Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

Comment éviter le sur-ajustement dans une forêt aléatoire?

Je veux éviter le sur-ajustement dans une forêt aléatoire. À cet égard, j'ai l'intention d'utiliser mtry, nodesize et maxnodes etc. Pourriez-vous s'il vous plaît m'aider à choisir des valeurs pour ces paramètres? J'utilise R. Aussi, si possible, dites-moi comment je peux utiliser la validation croisée k-fold pour la forêt aléatoire …

11 machine-learning data-mining r predictive-modeling random-forest

3

Les arbres de régression peuvent-ils prédire en continu?

Supposons que j'ai une fonction lisse comme . J'ai un ensemble d'entraînement D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} et, bien sûr, je ne connais pas f bien que je puisse évaluer f où je veux.f(x,y)=x2+y2f(x,y)=x2+y2f(x, y) …

11 predictive-modeling regression decision-trees

3

Quelle régression utiliser pour calculer le résultat d'une élection dans un système multipartite?

Je veux faire une prédiction du résultat des élections législatives. Ma sortie sera le% que chaque partie reçoit. Il y a plus de 2 partis, la régression logistique n'est donc pas une option viable. Je pourrais faire une régression distincte pour chaque parti mais dans ce cas, les résultats seraient …

11 classification r python regression predictive-modeling

3

Relation entre KS, AUROC et Gini

Les statistiques de validation de modèle communes comme le test de Kolmogorov – Smirnov (KS), l' AUROC et le coefficient de Gini sont tous fonctionnellement liés. Cependant, ma question concerne la preuve de la manière dont ces éléments sont tous liés. Je suis curieux de savoir si quelqu'un peut m'aider …

11 data-mining statistics predictive-modeling accuracy

Questions marquées «predictive-modeling»