Statistiques et Big Data

4

Comment interprétez-vous RMSLE (Root Mean Squared Logarithmic Error)?

J'ai fait un concours d'apprentissage automatique où ils utilisent RMSLE (Root Mean Squared Logarithmic Error) pour évaluer les performances prédisant le prix de vente d'une catégorie d'équipement. Le problème est que je ne sais pas comment interpréter le succès de mon résultat final. Par exemple, si j'ai atteint un RMSLE …

29 regression machine-learning interpretation measurement-error theory

3

K-fold vs Monte-Carlo validation croisée

J'essaie d'apprendre différentes méthodes de validation croisée, principalement avec l'intention de m'appliquer aux techniques d'analyse multivariée supervisée. Deux que j'ai rencontrés sont des techniques de validation croisée K-fold et Monte Carlo. J'ai lu que le K-fold est une variation de Monte Carlo mais je ne suis pas sûr de bien …

29 cross-validation monte-carlo

2

Comment comparer statistiquement les performances des classificateurs d'apprentissage automatique?

Sur la base de la précision estimée de la classification, je veux tester si un classificateur est statistiquement meilleur sur un ensemble de base qu'un autre classificateur. Pour chaque classificateur, je sélectionne un échantillon de formation et de test au hasard dans l'ensemble de base, j'entraîne le modèle et teste …

29 machine-learning classification t-test

2

Choisir une bande passante pour les estimateurs de densité du noyau

Pour les estimateurs univariés de densité de noyau (KDE), j'utilise la règle de Silverman pour calculer hhh : 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Quelles sont les règles standard pour KDE multivarié (en supposant un noyau normal).

29 smoothing kernel-smoothing

3

R: Random Forest lançant NaN / Inf dans l'erreur «appel de fonction étrangère» malgré l'absence de NaN dans l'ensemble de données [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . J'utilise caret pour exécuter une forêt aléatoire validée de façon croisée …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

4

Pourquoi Andrew Ng préfère-t-il utiliser SVD et non EIG de matrice de covariance pour faire PCA?

J'étudie PCA du cours Coursera d'Andrew Ng et d'autres matériaux. Dans le premier devoir de Stanford NLP cs224n , et dans la vidéo de conférence d'Andrew Ng , ils font une décomposition en valeurs singulières au lieu de la décomposition en vecteur propre de la matrice de covariance, et Ng …

29 pca linear-algebra svd eigenvalues numerics

4

Comment dérive la fonction de coût de la régression logistique

Je fais le cours de Machine Learning Stanford sur Coursera. Dans le chapitre sur la régression logistique, la fonction de coût est la suivante: Ensuite, il est dérivé ici: J'ai essayé d'obtenir le dérivé de la fonction de coût mais j'ai obtenu quelque chose de complètement différent. Comment le dérivé …

29 regression logistic gradient-descent derivative

1

que signifient les chiffres du rapport de classification de sklearn?

J'ai ci-dessous un exemple que j'ai tiré de la documentation sklearn.metrics.classification_report de sklearn. Ce que je ne comprends pas, c'est pourquoi il y a des valeurs de score f1, de précision et de rappel pour chaque classe où je crois que la classe est l'étiquette prédictive? Je pensais que le …

29 machine-learning python scikit-learn precision-recall

3

Validation croisée comprenant la formation, la validation et les tests. Pourquoi avons-nous besoin de trois sous-ensembles?

J'ai une question concernant le processus de validation croisée. Je suis au milieu d'un cours de Machine Learning sur la Cursera. L'un des sujets concerne la validation croisée. J'ai trouvé ça un peu difficile à suivre. Je sais pourquoi nous avons besoin de CV parce que nous voulons que nos …

29 machine-learning cross-validation

2

Erreur «le système est singulièrement calculateur» lors de l'exécution d'un glm

J'utilise le package robustbase pour exécuter une estimation glm. Cependant, lorsque je le fais, j'obtiens l'erreur suivante: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Qu'est-ce que cela signifie / indique? Et comment puis-je le déboguer? PS. Si vous avez besoin …

29 r generalized-linear-model robust

3

Pourquoi l'AUC est-elle plus élevée pour un classificateur moins précis que pour un classificateur plus précis?

J'ai deux classificateurs A: réseau bayésien naïf B: réseau bayésien d'arbre (connecté individuellement) En termes de précision et d'autres mesures, A fonctionne comparativement moins bien que B. Cependant, lorsque j'utilise les packages R ROCR et AUC pour effectuer une analyse ROC, il s'avère que l'AUC pour A est plus élevée …

29 machine-learning classification roc auc bayesian-network

4

Comment mesurer la non-uniformité d'une distribution?

J'essaie de trouver une métrique pour mesurer la non-uniformité d'une distribution pour une expérience que je lance. J'ai une variable aléatoire qui devrait être uniformément distribuée dans la plupart des cas, et j'aimerais pouvoir identifier (et peut-être mesurer le degré de) des exemples d'ensembles de données où la variable n'est …

28 distributions variance random-variable uniform

2

Statistics.com a-t-il publié la mauvaise réponse?

Statistics.com a publié un problème de la semaine: le taux de fraude à l'assurance habitation est de 10% (une réclamation sur dix est frauduleuse). Un consultant a proposé un système d'apprentissage automatique pour examiner les réclamations et les classer comme fraude ou non-fraude. Le système est efficace à 90% pour …

28 probability bayesian puzzle

4

Extrapolation contre interpolation

Quelle est la différence entre extrapolation et interpolation, et quelle est la manière la plus précise d'utiliser ces termes? Par exemple, j'ai vu une déclaration dans un article utilisant l'interpolation comme: "La procédure interpole la forme de la fonction estimée entre les points bin" Une phrase qui utilise à la …

28 terminology interpolation extrapolation

2

Quel est le modèle statistique derrière l'algorithme SVM?

J'ai appris que lorsque l'on traite des données à l'aide d'une approche basée sur un modèle, la première étape consiste à modéliser la procédure de données comme un modèle statistique. Ensuite, l'étape suivante consiste à développer un algorithme d'inférence / apprentissage efficace / rapide basé sur ce modèle statistique. Je …

28 machine-learning svm modeling