Questions marquées «model-evaluation»

Sur l'évaluation des modèles, qu'ils soient dans ou hors de l'échantillon.

7
Pourquoi la précision n'est-elle pas la meilleure mesure pour évaluer les modèles de classification?
C'est une question générale qui a été posée indirectement à plusieurs reprises ici, mais il manque une seule réponse faisant autorité. Il serait bon d'avoir une réponse détaillée à cette question pour la référence. L’exactitude , la proportion de classifications correctes parmi toutes les classifications, est une mesure très simple …


5
Implémentations optimisées de l'algorithme Random Forest
J'ai remarqué qu'il existe quelques implémentations de forêt aléatoire telles que ALGLIB, Waffles et certains packages R tels que randomForest. Quelqu'un peut-il me dire si ces bibliothèques sont hautement optimisées? Sont-ils fondamentalement équivalents aux forêts aléatoires décrites dans Les éléments de l’apprentissage statistique ou ont-ils été complétés de nombreuses astuces? …

3
Comment choisir une méthode de clustering? Comment valider une solution de cluster (pour justifier le choix de la méthode)?
L’un des problèmes les plus importants de l’analyse par grappes est qu’il peut arriver que nous devions tirer des conclusions différentes lorsque nous nous basons sur différentes méthodes de classification utilisées (y compris différentes méthodes de couplage dans une classification hiérarchique). J'aimerais connaître votre opinion à ce sujet - quelle …

1
Utilisation abusive de la validation croisée (rapport des performances pour la meilleure valeur d'hyperparamètre)
Récemment, je suis tombé sur un article qui propose d'utiliser un classificateur k-NN sur un ensemble de données spécifique. Les auteurs ont utilisé tous les échantillons de données disponibles pour effectuer une validation croisée k-fold pour différentes valeurs k et rapporter les résultats de la validation croisée de la meilleure …

3
Évaluation de la régression logistique et de l'interprétation de la qualité de l'ajustement Hosmer-Lemeshow
Comme nous le savons tous, il existe 2 méthodes pour évaluer le modèle de régression logistique et elles testent des choses très différentes Puissance prédictive: Obtenez une statistique qui mesure dans quelle mesure vous pouvez prédire la variable dépendante en fonction des variables indépendantes. Les Pseudo R ^ 2 bien …

3
Mesures de classification / évaluation pour les données très déséquilibrées
Je fais face à un problème de détection de fraude (de type notation de crédit). En tant que tel, il existe une relation très déséquilibrée entre les observations frauduleuses et non frauduleuses. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html fournit un excellent aperçu des différentes métriques de classification. Precision and Recallou les kappadeux semblent être un …




2
Relation entre les coefficients de corrélation phi, Matthews et Pearson
Les coefficients de corrélation phi et Matthews sont-ils le même concept? Comment sont-ils liés ou équivalents au coefficient de corrélation de Pearson pour deux variables binaires? Je suppose que les valeurs binaires sont 0 et 1. La corrélation de Pearson entre deux variables aléatoires de Bernoulli et est:yxxxyyy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho …

3
Pourquoi la méthode d'exclusion (fractionnement des données en formation et tests) n'est-elle pas utilisée dans les statistiques classiques?
Dans mon exposition en classe à l'exploration de données, la méthode de rétention a été introduite comme moyen d'évaluer les performances du modèle. Cependant, lorsque j'ai suivi mon premier cours sur les modèles linéaires, cela n'a pas été introduit comme moyen de validation ou d'évaluation des modèles. Ma recherche en …

1


5
Pourquoi le score bêta définit-il la bêta comme ça?
Il s'agit du score F beta: Fβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallFβ=(1+β2)⋅precision⋅recall(β2⋅precision)+recallF_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} L'article de Wikipedia indique que .FβFβF_\beta "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision" Je n'ai pas compris …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.