Statistiques et Big Data machine-learning

1

Réconciliation des arbres de régression boostés (BRT), des modèles boostés généralisés (GBM) et de la machine de boosting de gradient (GBM)

Des questions: Quelle est la différence entre les arbres de régression boostés (BRT) et les modèles boostés généralisés (GBM)? Peuvent-ils être utilisés de manière interchangeable? L'un est-il une forme spécifique de l'autre? Pourquoi Ridgeway a-t-il utilisé l'expression "modèles de régression généralisée boostée" (GBM) pour décrire ce que Friedman avait précédemment …

9 machine-learning boosting gbm

2

Estimation d'erreur hors du sac pour augmenter?

Dans Random Forest, chaque arbre est cultivé en parallèle sur un échantillon boostrap unique des données. Étant donné que chaque échantillon boostrap devrait contenir environ 63% d'observations uniques, cela laisse environ 37% d'observations, qui peuvent être utilisées pour tester l'arbre. Maintenant, il semble que dans le boosting de gradient stochastique, …

9 machine-learning cross-validation data-mining random-forest boosting

1

Comment trouver et évaluer la discrétisation optimale pour une variable continue avec le critère

J'ai un ensemble de données avec une variable continue et une variable cible binaire (0 et 1). Je dois discrétiser les variables continues (pour la régression logistique) par rapport à la variable cible et avec la contrainte que la fréquence d'observation dans chaque intervalle soit équilibrée. J'ai essayé des algorithmes …

9 r machine-learning chi-squared discrete-data supervised-learning

2

Les arbres CART capturent-ils les interactions entre les prédicteurs?

Cet article affirme que dans CART, car une division binaire est effectuée sur une seule covariable à chaque étape, toutes les divisions sont orthogonales et donc les interactions entre les covariables ne sont pas prises en compte. Cependant, de nombreuses références très sérieuses affirment, au contraire, que la structure hiérarchique …

9 machine-learning classification data-mining cart

1

Quelles sont les différences entre les filtres appris dans l'autoencodeur et le réseau neuronal convolutionnel?

Dans CNN, nous apprendrons des filtres pour produire une carte d'entités dans une couche convolutionnelle. Dans Autoencoder, chaque unité cachée de chaque couche peut être considérée comme un filtre. Quelle différence entre les filtres appris dans ces deux réseaux?

9 machine-learning neural-networks conv-neural-network autoencoders

3

ImageNet: que signifie l'erreur des cinq premiers?

L'une des méthodes d'évaluation pour ImageNet Competition (classer 1 000 catégories d'images) est l'erreur du top 5, qu'est-ce que cela signifie? Voir: http://www.image-net.org/challenges/LSVRC/

9 machine-learning classification computer-vision

2

Comment prouver que l'hypothèse multiple est correcte?

Dans l'apprentissage automatique, il est souvent supposé qu'un ensemble de données repose sur un collecteur lisse de faible dimension (l'hypothèse du collecteur), mais existe-t-il un moyen de prouver que, en supposant que certaines conditions sont remplies, l'ensemble de données est en effet (approximativement) généré à partir d'un collecteur lisse de …

9 machine-learning dimensionality-reduction manifold-learning

2

Regroupement d'une donnée bruyante ou avec des valeurs aberrantes

J'ai des données bruyantes de deux variables comme celle-ci. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, …

9 r machine-learning clustering

2

Comment trouver des valeurs optimales pour les paramètres de réglage dans les arbres boostés?

Je me rends compte qu'il y a 3 paramètres de réglage dans le modèle de boosting trees, c'est-à-dire le nombre d'arbres (nombre d'itérations) paramètre de rétrécissement nombre de divisions (taille de chaque arbre constitutif) Ma question est: pour chacun des paramètres de réglage, comment dois-je trouver sa valeur optimale? Et …

9 machine-learning cross-validation computational-statistics boosting gbm

4

Comment faire un apprentissage automatique multivarié? (prédire plusieurs variables dépendantes)

Je cherche à prédire les groupes d'articles que quelqu'un achètera ... c'est-à-dire que j'ai plusieurs variables dépendantes colinéaires. Plutôt que de construire environ 7 modèles indépendants pour prédire la probabilité que quelqu'un achète chacun des 7 articles, puis de combiner les résultats, quelles méthodes devrais-je étudier pour avoir un modèle …

9 r machine-learning multivariate-analysis

1

Quand une règle de notation appropriée est-elle une meilleure estimation de la généralisation dans un cadre de classification?

Une approche typique pour résoudre un problème de classification consiste à identifier une classe de modèles candidats, puis à effectuer une sélection de modèle à l'aide d'une procédure telle que la validation croisée. Généralement, on sélectionne le modèle avec la plus grande précision, ou une fonction associée qui code des …

9 machine-learning model-selection error scoring-rules

2

Couplage des informations de séries chronologiques à partir de sources avec plusieurs résolutions / échelles spatiales

J'ai de nombreuses images raster satellite disponibles à partir de différents capteurs. De ceux-ci, les plus grossiers ont une résolution temporelle très abondante. Les rasters à résolution moyenne ont tendance à avoir moins de dates d'acquisition, mais un certain degré d'informations est toujours disponible. Les plus fines résolutions ont une …

9 time-series machine-learning predictive-models multivariate-regression

1

Modèle de Markov caché pour la prédiction d'événements

Question : La configuration ci-dessous est-elle une implémentation sensée d'un modèle de Markov caché? J'ai un ensemble de données d' 108,000observations (prises sur une période de 100 jours) et approximativement des 2000événements tout au long de la période d'observation. Les données ressemblent à la figure ci-dessous où la variable observée …

9 time-series machine-learning predictive-models markov-chain hidden-markov-model

6

Quels algorithmes d'apprentissage automatique peuvent être mis à l'échelle à l'aide de hadoop / map-Reduce

Les algorithmes d'apprentissage automatique évolutifs semblent être à la mode ces jours-ci. Chaque entreprise ne gère rien de moins que les mégadonnées . Existe-t-il un manuel qui explique quels algorithmes d'apprentissage automatique peuvent être mis à l'échelle en utilisant des architectures parallèles comme Map-Reduce, et quels algorithmes ne le peuvent …

9 machine-learning large-data

1

R / caret: train et ensembles de test vs validation croisée?

Cela peut être peut-être une question stupide, mais lors de la génération d'un modèle avec caret et en utilisant quelque chose comme LOOCVou (plus précisément) LGOCV, quel est l'avantage de diviser les données en trains et ensembles de test si c'est essentiellement ce que l'étape de validation croisée fait de …

9 r machine-learning cross-validation caret

Questions marquées «machine-learning»