Science des données random-forest

1

Forêts aléatoires en ligne en ajoutant plus d'arbres de décisions uniques

Une forêt aléatoire (RF) est créée par un ensemble d'arbres de décision (DT). En utilisant l'ensachage, chaque DT est formé dans un sous-ensemble de données différent. Par conséquent, existe-t-il un moyen de mettre en œuvre une forêt aléatoire en ligne en ajoutant plus de décision sur les nouvelles données? Par …

13 random-forest online-learning

1

Importance des caractéristiques avec des caractéristiques catégorielles à cardinalité élevée pour la régression (variable dépendante numérique)

J'essayais d'utiliser les importances de fonctionnalités de Random Forests pour effectuer une sélection de fonctionnalités empiriques pour un problème de régression où toutes les fonctionnalités sont catégoriques et beaucoup d'entre elles ont de nombreux niveaux (de l'ordre de 100-1000). Étant donné que l'encodage à chaud crée une variable fictive pour …

12 scikit-learn feature-selection random-forest xgboost categorical-data

1

Sélection de fonctionnalités à l'aide d'importances de fonctionnalités dans des forêts aléatoires avec scikit-learn

J'ai tracé les importances des fonctionnalités dans des forêts aléatoires avec scikit-learn . Afin d'améliorer la prédiction à l'aide de forêts aléatoires, comment puis-je utiliser les informations de tracé pour supprimer des entités? C'est-à-dire comment repérer si une fonctionnalité est inutile ou pire encore une diminution des performances des forêts …

12 feature-selection random-forest scikit-learn

1

Combien de cellules LSTM dois-je utiliser?

Existe-t-il des règles générales (ou des règles réelles) concernant la quantité minimale, maximale et "raisonnable" de cellules LSTM que je devrais utiliser? Plus précisément, je me rapporte à BasicLSTMCell de TensorFlow et à la num_unitspropriété. Veuillez supposer que j'ai un problème de classification défini par: t - number of time …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Existe-t-il de bons modèles de langage prêts à l'emploi pour python?

Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

La précision du modèle à 100% sur les données hors échantillon est-elle sur-adaptée?

Je viens de terminer le cours d'apprentissage automatique pour R sur cognitiveclass.ai et j'ai commencé à expérimenter avec randomforests. J'ai créé un modèle en utilisant la bibliothèque "randomForest" dans R. Le modèle classe par deux classes, bonnes et mauvaises. Je sais que lorsqu'un modèle est surajusté, il fonctionne bien sur …

11 r random-forest prediction overfitting

2

Trouver le P optimal (X | Y) étant donné que j'ai un modèle qui a de bonnes performances lorsqu'il est formé sur P (Y | X)

Des données d'entrée: XXX -> caractéristiques du t-shirt (couleur, logo, etc.) YYY -> marge bénéficiaire J'ai formé une forêt aléatoire sur les et ci-dessus et j'ai atteint une précision raisonnable sur les données d'un test. Donc j'aiXXXYYY P(Y|X)P(Y|X)P(Y|X) . Maintenant, je voudrais trouver c'est-à-dire la distribution de probabilité des caractéristiques …

11 machine-learning random-forest generative-models

3

Classes déséquilibrées - Comment minimiser les faux négatifs?

J'ai un ensemble de données qui a un attribut de classe binaire. Il y a 623 instances de classe +1 (cancer positif) et 101 671 instances de classe -1 (cancer négatif). J'ai essayé divers algorithmes (Naive Bayes, Random Forest, AODE, C4.5) et tous ont des taux de faux négatifs inacceptables. …

11 classification random-forest decision-trees unbalanced-classes

4

Comment éviter le sur-ajustement dans une forêt aléatoire?

Je veux éviter le sur-ajustement dans une forêt aléatoire. À cet égard, j'ai l'intention d'utiliser mtry, nodesize et maxnodes etc. Pourriez-vous s'il vous plaît m'aider à choisir des valeurs pour ces paramètres? J'utilise R. Aussi, si possible, dites-moi comment je peux utiliser la validation croisée k-fold pour la forêt aléatoire …

11 machine-learning data-mining r predictive-modeling random-forest

2

Comment puis-je adapter les types de données catégoriques pour la classification aléatoire des forêts?

J'ai besoin de trouver la précision d'un ensemble de données de formation en appliquant l'algorithme de forêt aléatoire. Mais le type de mon ensemble de données est à la fois catégorique et numérique. Lorsque j'ai essayé d'ajuster ces données, j'obtiens une erreur. 'L'entrée contient NaN, l'infini ou une valeur trop …

11 python data-mining random-forest

3

La sélection des fonctionnalités est-elle nécessaire?

Je voudrais exécuter un modèle d'apprentissage automatique comme la forêt aléatoire, le renforcement du gradient ou SVM sur mon jeu de données. Il y a plus de 200 variables prédictives dans mon jeu de données et mes classes cibles sont une variable binaire. Dois-je exécuter la sélection des fonctions avant …

11 machine-learning predictive-modeling feature-selection random-forest

3

Meilleures langues pour le calcul scientifique [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 5 ans . Il semble que la plupart des …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

l'importance des caractéristiques via la forêt aléatoire et la régression linéaire sont différentes

Appliqué Lasso pour classer les fonctionnalités et obtenu les résultats suivants: rank feature prob. ================================== 1 a 0.1825477951589229 2 b 0.07858498115577893 3 c 0.07041793111843796 Notez que l'ensemble de données a 3 étiquettes. Le classement des fonctionnalités pour les différentes étiquettes est le même. Ensuite, appliqué une forêt aléatoire au même …

9 feature-selection random-forest linear-regression

3

Exporter les poids (formule) de Random Forest Regressor dans Scikit-Learn

J'ai formé un modèle de prédiction avec Scikit Learn in Python (Random Forest Regressor) et je veux extraire en quelque sorte les poids de chaque fonctionnalité pour créer un outil Excel pour la prédiction manuelle. La seule chose que j'ai trouvée est la model.feature_importances_mais ça n'aide pas. Existe-t-il un moyen …

9 python predictive-modeling regression random-forest scikit-learn

Questions marquées «random-forest»