C'est une question générale qui a été posée indirectement à plusieurs reprises ici, mais il manque une seule réponse faisant autorité. Il serait bon d'avoir une réponse détaillée à cette question pour la référence. L’exactitude , la proportion de classifications correctes parmi toutes les classifications, est une mesure très simple …
J'ai déjà posé cette question à StackOverflow, mais il semble que cela conviendrait mieux ici, étant donné que cela n'a pas donné de réponse à SO. C'est un peu à la croisée des statistiques et de la programmation. J'ai besoin d'écrire du code pour faire PCA (analyse en composantes principales). …
J'ai remarqué qu'il existe quelques implémentations de forêt aléatoire telles que ALGLIB, Waffles et certains packages R tels que randomForest. Quelqu'un peut-il me dire si ces bibliothèques sont hautement optimisées? Sont-ils fondamentalement équivalents aux forêts aléatoires décrites dans Les éléments de l’apprentissage statistique ou ont-ils été complétés de nombreuses astuces? …
L’un des problèmes les plus importants de l’analyse par grappes est qu’il peut arriver que nous devions tirer des conclusions différentes lorsque nous nous basons sur différentes méthodes de classification utilisées (y compris différentes méthodes de couplage dans une classification hiérarchique). J'aimerais connaître votre opinion à ce sujet - quelle …
Récemment, je suis tombé sur un article qui propose d'utiliser un classificateur k-NN sur un ensemble de données spécifique. Les auteurs ont utilisé tous les échantillons de données disponibles pour effectuer une validation croisée k-fold pour différentes valeurs k et rapporter les résultats de la validation croisée de la meilleure …
Comme nous le savons tous, il existe 2 méthodes pour évaluer le modèle de régression logistique et elles testent des choses très différentes Puissance prédictive: Obtenez une statistique qui mesure dans quelle mesure vous pouvez prédire la variable dépendante en fonction des variables indépendantes. Les Pseudo R ^ 2 bien …
Je fais face à un problème de détection de fraude (de type notation de crédit). En tant que tel, il existe une relation très déséquilibrée entre les observations frauduleuses et non frauduleuses. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html fournit un excellent aperçu des différentes métriques de classification. Precision and Recallou les kappadeux semblent être un …
La compétition de Kaggle La prévision de conducteur sûr de Porto Seguro utilise le score de Gini normalisé comme métrique d'évaluation, ce qui m'a rendu curieux des raisons de ce choix. Quels sont les avantages de l'utilisation du score de Gini normalisé au lieu des mesures les plus courantes, comme …
Une mesure courante utilisée pour comparer deux modèles de classification ou plus consiste à utiliser l'aire sous la courbe ROC (AUC) comme moyen d'évaluer indirectement leur performance. Dans ce cas, un modèle avec une AUC plus grande est généralement interprété comme plus performant qu'un modèle avec une AUC plus petite. …
Les coefficients de corrélation phi et Matthews sont-ils le même concept? Comment sont-ils liés ou équivalents au coefficient de corrélation de Pearson pour deux variables binaires? Je suppose que les valeurs binaires sont 0 et 1. La corrélation de Pearson entre deux variables aléatoires de Bernoulli et est:yxxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho …
Dans mon exposition en classe à l'exploration de données, la méthode de rétention a été introduite comme moyen d'évaluer les performances du modèle. Cependant, lorsque j'ai suivi mon premier cours sur les modèles linéaires, cela n'a pas été introduit comme moyen de validation ou d'évaluation des modèles. Ma recherche en …
Je voulais mieux comprendre le test exact du pêcheur, j'ai donc imaginé l'exemple de jouet suivant, où f et m correspond à l'homme et à la femme, et n et y correspond à la "consommation de soda" comme ceci: > soda_gender f m n 0 5 y 5 0 Évidemment, …
Je lisais sur les métriques de régression dans le manuel python scikit-learn et même si chacun d'eux a sa propre formule, je ne peux pas dire intuitivement quelle est la différence entre et le score de variance et donc quand utiliser l'un ou l'autre pour évaluer mes modèles.R2R2R^2
Il s'agit du score F beta: Fβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallFβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallF_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} L'article de Wikipedia indique que .FβFβF_\beta "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision" Je n'ai pas compris …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.