Q & A pour les personnes intéressées par les statistiques, l'apprentissage automatique, l'analyse de données, l'exploration de données et la visualisation de données
J'ai fait un concours d'apprentissage automatique où ils utilisent RMSLE (Root Mean Squared Logarithmic Error) pour évaluer les performances prédisant le prix de vente d'une catégorie d'équipement. Le problème est que je ne sais pas comment interpréter le succès de mon résultat final. Par exemple, si j'ai atteint un RMSLE …
J'essaie d'apprendre différentes méthodes de validation croisée, principalement avec l'intention de m'appliquer aux techniques d'analyse multivariée supervisée. Deux que j'ai rencontrés sont des techniques de validation croisée K-fold et Monte Carlo. J'ai lu que le K-fold est une variation de Monte Carlo mais je ne suis pas sûr de bien …
Sur la base de la précision estimée de la classification, je veux tester si un classificateur est statistiquement meilleur sur un ensemble de base qu'un autre classificateur. Pour chaque classificateur, je sélectionne un échantillon de formation et de test au hasard dans l'ensemble de base, j'entraîne le modèle et teste …
Pour les estimateurs univariés de densité de noyau (KDE), j'utilise la règle de Silverman pour calculer hhh : 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Quelles sont les règles standard pour KDE multivarié (en supposant un noyau normal).
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . J'utilise caret pour exécuter une forêt aléatoire validée de façon croisée …
J'étudie PCA du cours Coursera d'Andrew Ng et d'autres matériaux. Dans le premier devoir de Stanford NLP cs224n , et dans la vidéo de conférence d'Andrew Ng , ils font une décomposition en valeurs singulières au lieu de la décomposition en vecteur propre de la matrice de covariance, et Ng …
Je fais le cours de Machine Learning Stanford sur Coursera. Dans le chapitre sur la régression logistique, la fonction de coût est la suivante: Ensuite, il est dérivé ici: J'ai essayé d'obtenir le dérivé de la fonction de coût mais j'ai obtenu quelque chose de complètement différent. Comment le dérivé …
J'ai ci-dessous un exemple que j'ai tiré de la documentation sklearn.metrics.classification_report de sklearn. Ce que je ne comprends pas, c'est pourquoi il y a des valeurs de score f1, de précision et de rappel pour chaque classe où je crois que la classe est l'étiquette prédictive? Je pensais que le …
J'ai une question concernant le processus de validation croisée. Je suis au milieu d'un cours de Machine Learning sur la Cursera. L'un des sujets concerne la validation croisée. J'ai trouvé ça un peu difficile à suivre. Je sais pourquoi nous avons besoin de CV parce que nous voulons que nos …
J'utilise le package robustbase pour exécuter une estimation glm. Cependant, lorsque je le fais, j'obtiens l'erreur suivante: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Qu'est-ce que cela signifie / indique? Et comment puis-je le déboguer? PS. Si vous avez besoin …
J'ai deux classificateurs A: réseau bayésien naïf B: réseau bayésien d'arbre (connecté individuellement) En termes de précision et d'autres mesures, A fonctionne comparativement moins bien que B. Cependant, lorsque j'utilise les packages R ROCR et AUC pour effectuer une analyse ROC, il s'avère que l'AUC pour A est plus élevée …
J'essaie de trouver une métrique pour mesurer la non-uniformité d'une distribution pour une expérience que je lance. J'ai une variable aléatoire qui devrait être uniformément distribuée dans la plupart des cas, et j'aimerais pouvoir identifier (et peut-être mesurer le degré de) des exemples d'ensembles de données où la variable n'est …
Statistics.com a publié un problème de la semaine: le taux de fraude à l'assurance habitation est de 10% (une réclamation sur dix est frauduleuse). Un consultant a proposé un système d'apprentissage automatique pour examiner les réclamations et les classer comme fraude ou non-fraude. Le système est efficace à 90% pour …
Quelle est la différence entre extrapolation et interpolation, et quelle est la manière la plus précise d'utiliser ces termes? Par exemple, j'ai vu une déclaration dans un article utilisant l'interpolation comme: "La procédure interpole la forme de la fonction estimée entre les points bin" Une phrase qui utilise à la …
J'ai appris que lorsque l'on traite des données à l'aide d'une approche basée sur un modèle, la première étape consiste à modéliser la procédure de données comme un modèle statistique. Ensuite, l'étape suivante consiste à développer un algorithme d'inférence / apprentissage efficace / rapide basé sur ce modèle statistique. Je …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.