Statistiques et Big Data classification

3

Comment augmenter les données et valider le train?

Je fais la classification d'images en utilisant l'apprentissage automatique. Supposons que j'ai des données d'entraînement (images) et que je vais diviser les données en ensembles d'apprentissage et de validation. Et je veux aussi augmenter les données (produire de nouvelles images à partir des images originales) par des rotations aléatoires et …

14 machine-learning classification cross-validation dataset data-augmentation

1

La différence entre la régression logistique et les machines à vecteurs de support?

Je sais que la régression logistique trouve un hyperplan qui sépare les échantillons d'entraînement. Je sais également que les machines à vecteurs de support trouvent l'hyperplan avec la marge maximale. Ma question: est-ce que la différence entre la régression logistique (LR) et les machines à vecteurs de support (SVM) est …

14 machine-learning classification svm data-mining

1

Classificateurs d'apprentissage automatique Big-O ou complexité

Pour évaluer les performances d'un nouvel algorithme de classificateur, j'essaie de comparer la précision et la complexité (big-O dans la formation et la classification). De Machine Learning: un examen, j'obtiens une liste complète des classificateurs supervisés, ainsi qu'un tableau de précision entre les algorithmes et 44 problèmes de test du …

14 machine-learning classification multiple-comparisons algorithms time-complexity

3

Pondération des données plus récentes dans le modèle de forêt aléatoire

J'entraîne un modèle de classification avec Random Forest pour faire la distinction entre 6 catégories. Mes données transactionnelles ont environ 60k + observations et 35 variables. Voici un exemple de son apparence approximative. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | …

14 r machine-learning classification random-forest

1

Utilisation de LASSO sur une forêt aléatoire

Je voudrais créer une forêt aléatoire en utilisant le processus suivant: Construisez un arbre sur un échantillon aléatoire des données et des fonctionnalités en utilisant le gain d'informations pour déterminer les divisions Terminer un nœud feuille s'il dépasse une profondeur prédéfinie OU toute scission entraînerait un nombre de feuilles inférieur …

14 classification random-forest lasso ensemble

1

RandomForest - Interprétation du tracé MDS

J'ai utilisé randomForest pour classer 6 comportements d'animaux (par exemple, debout, marcher, nager, etc.) en fonction de 8 variables (différentes postures corporelles et mouvements). Le MDSplot dans le package randomForest me donne cette sortie et j'ai des problèmes pour interpréter le résultat. J'ai fait un PCA sur les mêmes données …

14 r classification random-forest multidimensional-scaling

3

Choix de la fonction d'activation cachée du réseau neuronal

J'ai lu ailleurs que le choix d'une fonction d'activation de couche cachée dans un NN devrait être basé sur ses besoins , c'est-à-dire que si vous avez besoin de valeurs dans la plage -1 à 1, utilisez tanh et utilisez sigmoid pour la plage 0 à 1. Ma question est …

14 machine-learning classification neural-networks

5

Comment faire une classification de texte à une classe?

Je dois faire face à un problème de classification de texte. Un robot d'indexation analyse des pages Web d'un certain domaine et pour chaque page Web, je veux savoir si elle appartient à une seule classe spécifique ou non. Autrement dit, si j'appelle cette classe positive , chaque page Web …

14 classification text-mining naive-bayes binary-data

1

Lorsque des classes déséquilibrées sont sur / sous-échantillonnées, maximiser la précision diffère-t-il de minimiser les coûts de mauvaise classification?

Tout d'abord, je voudrais décrire quelques dispositions courantes que les livres d'exploration de données utilisent pour expliquer comment traiter les ensembles de données non équilibrés . Habituellement, la section principale est intitulée Ensembles de données non équilibrés et couvre ces deux sous-sections: Techniques de classification et d'échantillonnage sensibles aux coûts. …

14 machine-learning classification unbalanced-classes

3

Les modèles CART peuvent-ils être rendus robustes?

Un collègue de mon bureau m'a dit aujourd'hui "Les modèles d'arbres ne sont pas bons parce qu'ils sont pris par des observations extrêmes". Une recherche ici a abouti à ce fil qui soutient essentiellement la revendication. Ce qui m'amène à la question - dans quelle situation un modèle CART peut-il …

14 regression classification robust cart

2

Pourquoi l'estimation d'erreur OOB de la forêt aléatoire s'améliore-t-elle lorsque le nombre d'entités sélectionnées diminue?

J'applique un algorithme de forêt aléatoire en tant que classificateur sur un ensemble de données de microréseaux qui sont divisés en deux groupes connus avec des milliers de fonctionnalités. Après l'exécution initiale, je regarde l'importance des fonctionnalités et réexécute l'algorithme d'arbre avec les fonctionnalités les plus importantes 5, 10 et …

14 r machine-learning classification random-forest

1

Pourquoi utiliser le score de Gini normalisé au lieu de l'ASC comme évaluation?

La compétition de Kaggle La prévision de conducteur sûr de Porto Seguro utilise le score de Gini normalisé comme métrique d'évaluation, ce qui m'a rendu curieux des raisons de ce choix. Quels sont les avantages de l'utilisation du score de Gini normalisé au lieu des mesures les plus courantes, comme …

14 classification auc model-evaluation gini

1

Caret glmnet vs cv.glmnet

Il semble y avoir beaucoup de confusion dans la comparaison de l'utilisation à l' glmnetintérieur caretpour rechercher un lambda optimal et à utiliser cv.glmnetpour faire la même tâche. De nombreuses questions ont été posées, par exemple: Modèle de classification train.glmnet vs cv.glmnet? Quelle est la bonne façon d'utiliser glmnet avec …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

GAM vs LOESS vs splines

Contexte : Je veux tracer une ligne dans un nuage de points qui n'apparaît pas paramétrique, donc j'utilise geom_smooth()in ggplotin R. Il retourne automatiquement geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

8

Former un réseau neuronal pour distinguer les nombres pairs et impairs

Question: est-il possible de former un NN pour distinguer entre les nombres pairs et impairs en utilisant uniquement comme entrée les nombres eux-mêmes? J'ai le jeu de données suivant: Number Target 1 0 2 1 3 0 4 1 5 0 6 1 ... ... 99 0 100 1 J'ai …

14 machine-learning classification categorical-data neural-networks genetic-algorithms

Questions marquées «classification»