Statistiques et Big Data machine-learning

2

Traiter des ensembles de données avec un nombre variable d'entités

Quelles sont certaines approches pour classer les données avec un nombre variable de fonctionnalités? Par exemple, considérons un problème où chaque point de données est un vecteur de points x et y, et nous n'avons pas le même nombre de points pour chaque instance. Pouvons-nous traiter chaque paire de points …

14 machine-learning missing-data

3

Que peut-on dire à un écolier sur les statistiques et l'apprentissage automatique?

La semaine prochaine, nous avons un stagiaire d'une école locale dans la maison. Le concept derrière son court stage est de se faire une idée du fonctionnement du monde réel et de la gestion de certains emplois, de l'aspect du travail quotidien, etc. Maintenant, je me demandais ce que l'on …

14 machine-learning teaching

2

Encodage de fonctionnalités catégorielles en nombres pour l'apprentissage automatique

De nombreux algorithmes d'apprentissage automatique, par exemple les réseaux de neurones, s'attendent à traiter les nombres. Ainsi, lorsque vous avez des données catégorielles, vous devez les convertir. Par catégorique, je veux dire, par exemple: Marques automobiles: Audi, BMW, Chevrolet ... ID utilisateur: 1, 25, 26, 28 ... Même si les …

14 machine-learning many-categories

1

Lorsque des classes déséquilibrées sont sur / sous-échantillonnées, maximiser la précision diffère-t-il de minimiser les coûts de mauvaise classification?

Tout d'abord, je voudrais décrire quelques dispositions courantes que les livres d'exploration de données utilisent pour expliquer comment traiter les ensembles de données non équilibrés . Habituellement, la section principale est intitulée Ensembles de données non équilibrés et couvre ces deux sous-sections: Techniques de classification et d'échantillonnage sensibles aux coûts. …

14 machine-learning classification unbalanced-classes

8

Quels sont les «algorithmes chauds» pour l'apprentissage automatique?

C'est une question naïve de quelqu'un qui commence à apprendre le machine learning. Je lis ces jours-ci le livre "Machine Learning: An algorithmic perspective" de Marsland. Je le trouve utile comme livre d'introduction, mais maintenant je voudrais entrer dans les algorithmes avancés, ceux qui donnent actuellement les meilleurs résultats. Je …

14 machine-learning clustering bioinformatics

1

Interprétation de la distance depuis l'hyperplan dans SVM

J'ai quelques doutes quant à la compréhension intuitive des SVM. Supposons que nous ayons formé un modèle SVM pour la classification en utilisant un outil standard comme SVMLight ou LibSVM. Lorsque nous utilisons ce modèle pour la prédiction sur les données de test, le modèle génère un fichier ayant des …

14 machine-learning svm max-margin

1

Quand voudrait-on utiliser AdaBoost?

Comme j'ai entendu parler du classificateur AdaBoost à plusieurs reprises au travail, je voulais avoir une meilleure idée de son fonctionnement et du moment où on pourrait l'utiliser. Je suis allé de l'avant et j'ai lu un certain nombre d'articles et de didacticiels que j'ai trouvés sur Google, mais il …

14 machine-learning boosting adaboost

2

Commande de séries chronologiques pour l'apprentissage automatique

Après avoir lu l' un des "Conseils de recherche" de RJ Hyndman sur la validation croisée et les séries chronologiques, je suis revenu à une vieille question que je vais essayer de formuler ici. L'idée est que dans les problèmes de classification ou de régression, l'ordre des données n'est pas …

14 time-series machine-learning cross-validation

2

Pourquoi l'estimation d'erreur OOB de la forêt aléatoire s'améliore-t-elle lorsque le nombre d'entités sélectionnées diminue?

J'applique un algorithme de forêt aléatoire en tant que classificateur sur un ensemble de données de microréseaux qui sont divisés en deux groupes connus avec des milliers de fonctionnalités. Après l'exécution initiale, je regarde l'importance des fonctionnalités et réexécute l'algorithme d'arbre avec les fonctionnalités les plus importantes 5, 10 et …

14 r machine-learning classification random-forest

1

En quoi la stimulation douce diffère-t-elle d'AdaBoost?

Il existe une variante de boosting appelée softboost . En quoi la stimulation douce diffère-t-elle du AdaBoost plus connu ?

14 machine-learning boosting

3

Quelle est la valeur maximale de la divergence Kullback-Leibler (KL)

Je vais utiliser la divergence KL dans mon code python et j'ai eu ce tutoriel . Sur ce tutoriel, implémenter la divergence KL est assez simple. kl = (model * np.log(model/actual)).sum() Si je comprends bien, la distribution de probabilité de modelet actualdevrait être <= 1. Ma question est, quelle est …

14 machine-learning distance kullback-leibler

1

Caret glmnet vs cv.glmnet

Il semble y avoir beaucoup de confusion dans la comparaison de l'utilisation à l' glmnetintérieur caretpour rechercher un lambda optimal et à utiliser cv.glmnetpour faire la même tâche. De nombreuses questions ont été posées, par exemple: Modèle de classification train.glmnet vs cv.glmnet? Quelle est la bonne façon d'utiliser glmnet avec …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

4

Intervalles de prédiction pour les algorithmes d'apprentissage automatique

Je veux savoir si le processus décrit ci-dessous est valide / acceptable et toute justification disponible. L'idée: les algorithmes d'apprentissage supervisé ne supposent pas de structures / distributions sous-jacentes sur les données. À la fin de la journée, ils produisent des estimations ponctuelles. J'espère quantifier en quelque sorte l'incertitude des …

14 machine-learning confidence-interval bootstrap supervised-learning gbm

3

Comment modéliser des big data longitudinales?

Traditionnellement, nous utilisons un modèle mixte pour modéliser des données longitudinales, c'est-à-dire des données comme: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 nous pouvons supposer une interception …

14 machine-learning data-transformation random-forest panel-data large-data

1

GAM vs LOESS vs splines

Contexte : Je veux tracer une ligne dans un nuage de points qui n'apparaît pas paramétrique, donc j'utilise geom_smooth()in ggplotin R. Il retourne automatiquement geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change …

14 r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

Questions marquées «machine-learning»