Statistiques et Big Data validation

2

Scikit bonne façon d'étalonner les classificateurs avec CalibratedClassifierCV

Scikit a CalibratedClassifierCV , qui nous permet d'étalonner nos modèles sur une paire X, y particulière. Il indique également clairement quedata for fitting the classifier and for calibrating it must be disjoint. S'ils doivent être disjoints, est-il légitime de former le classificateur avec les éléments suivants? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, …

14 cross-validation scikit-learn validation train calibration

1

Lors de la construction d'un modèle de régression à l'aide d'ensembles de modélisation / validation distincts, est-il approprié de «recirculer» les données de validation?

Supposons que j'ai un partage 80/20 entre les observations de modélisation / validation. J'ai ajusté un modèle à l'ensemble de données de modélisation et je suis à l'aise avec l'erreur que je vois sur l'ensemble de données de validation. Avant de déployer mon modèle pour noter les observations futures, est-il …

13 regression predictive-models validation

3

Pourquoi la méthode d'exclusion (fractionnement des données en formation et tests) n'est-elle pas utilisée dans les statistiques classiques?

Dans mon exposition en classe à l'exploration de données, la méthode de rétention a été introduite comme moyen d'évaluer les performances du modèle. Cependant, lorsque j'ai suivi mon premier cours sur les modèles linéaires, cela n'a pas été introduit comme moyen de validation ou d'évaluation des modèles. Ma recherche en …

12 regression validation model-evaluation out-of-sample

1

Nom de l'erreur moyenne absolue analogue au score de Brier?

La question d'hier Déterminer l'exactitude du modèle qui estime la probabilité d'un événement m'a rendu curieux au sujet de la notation des probabilités. Le score de Brier est une mesure d'erreur quadratique moyenne. Est-ce que l'analogue signifie une mesure absolue des performances d'erreur absolue avoir un nom aussi?1N∑i=1N(predictioni−referencei)21N∑i=1N(predictioni−referencei)2\frac{1}{N}\sum\limits _{i=1}^{N}(prediction_i - …

12 classification error validation scoring-rules brier-score

2

Le taux d'erreur est-il une fonction convexe du paramètre de régularisation lambda?

En choisissant le paramètre de régularisation lambda dans Ridge ou Lasso, la méthode recommandée consiste à essayer différentes valeurs de lambda, à mesurer l'erreur dans l'ensemble de validation et enfin à choisir la valeur de lambda qui renvoie l'erreur la plus faible. Ce n'est pas pour moi si la fonction …

11 cross-validation error regularization validation optimization

1

Quelle est l'intuition derrière la métrique de variation de l'information (VI) pour la validation de cluster?

Pour les non-statisticiens comme moi, il est très difficile de saisir l'idée de VImétrique (variation des informations) même après avoir lu l'article pertinent de Marina Melia " Comparing clusterings - An information based distance " (Journal of Multivariate Analysis, 2007). En fait, je ne connais pas la plupart des termes …

11 r clustering validation intuition

1

Mesure d'évaluation des prévisions pour les données de panel / longitudinales

Je voudrais évaluer plusieurs modèles différents qui fournissent des prédictions de comportement à un niveau mensuel. Les données sont équilibrées, et 100 000 et 12. Le résultat est d'assister à un concert au cours d'un mois donné, il est donc nul pour ~ 80% des gens au cours d'un mois, …

11 repeated-measures predictive-models stata panel-data validation

3

Qu'est-ce qu'un contrôle de cohérence?

On m'a posé une question telle que "Avez-vous effectué un contrôle de cohérence dans votre travail quotidien?" lors d'un entretien téléphonique pour un poste de biostatisticien. Je ne sais pas quoi répondre. Toute information est appréciée.

11 validation

3

Fractionnement des données de séries chronologiques en ensembles de train / test / validation

Quelle est la meilleure façon de diviser les données de séries chronologiques en ensembles train / test / validation, où l'ensemble de validation serait utilisé pour le réglage d'hyperparamètre? Nous avons 3 ans de données de vente quotidiennes, et notre plan est d'utiliser 2015-2016 comme données de formation, puis échantillonner …

11 time-series cross-validation validation

2

Comment créer un ensemble d'échantillons représentatif à partir d'un grand ensemble de données global?

Quelles sont les techniques statistiques pour créer un ensemble d'échantillons représentatif de l'ensemble de la population (avec un niveau de confiance connu)? Aussi, Comment valider, si l'échantillon correspond à l'ensemble de données global? Est-ce possible, sans analyser l'ensemble de données entier (qui pourrait être des milliards d'enregistrements)?

10 sampling sample-size validation

2

Biais d'optimisme - estimations de l'erreur de prédiction

Le livre Elements of Statistical Learning (disponible en ligne en PDF) discute du biais d'optimisim (7.21, page 229). Il indique que le biais d'optimisme est la différence entre l'erreur d'apprentissage et l'erreur dans l'échantillon (erreur observée si nous échantillonnons de nouvelles valeurs de résultat à chacun des points d'apprentissage d'origine) …

9 error bias validation

4

Calcul du rapport des échantillons de données utilisés pour l'ajustement / la formation et la validation du modèle

A fourni une taille d'échantillon "N" que je prévois d'utiliser pour prévoir les données. Quelles sont certaines des façons de subdiviser les données afin que j'en utilise une partie pour établir un modèle et les autres données pour valider le modèle? Je sais qu'il n'y a pas de réponse en …

9 machine-learning modeling sample validation

2

Quelle est la différence entre l'analyse de sensibilité et la validation du modèle?

J'ai lu les deux pages wikipedia d' analyse de sensibilité et de validation de modèle (ici, seulement la validation de régression linéaire) mais je n'arrive pas à trouver un moyen de séparer ces deux termes. J'ai l'impression que le premier est plus utilisé dans les universités et l'ingénierie en général …

9 validation sensitivity-analysis

1

Meilleures pratiques pour mesurer et éviter le sur-ajustement?

Je développe des systèmes de trading automatisés pour le marché boursier. Le grand défi a été le sur-ajustement. Pouvez-vous recommander des ressources décrivant des méthodes pour mesurer et éviter le sur-ajustement? J'ai commencé avec des ensembles de formation / validation, mais l'ensemble de validation est toujours vicié. De plus, les …

9 time-series machine-learning dataset data-mining validation

4

Est-il obligatoire de sous-définir vos données pour valider un modèle?

J'ai du mal à me retrouver sur la même longueur d'onde que mon supérieur quand il s'agit de valider mon modèle. J'ai analysé les résidus (observés par rapport aux valeurs ajustées) et je l'ai utilisé comme argument pour discuter des résultats obtenus par mon modèle, mais mon superviseur insiste sur …

8 r references glmm validation glmmtmb

Questions marquées «validation»