Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
J'ai lu maintes et maintes fois que la validation croisée "Leave-one-out" a une grande variance en raison du grand chevauchement des plis de formation. Cependant, je ne comprends pas pourquoi: les performances de la validation croisée ne devraient-elles pas être très stables (faible variance) exactement parce que les ensembles d'entraînement …
J'ai une question spécifique sur la validation dans la recherche d'apprentissage automatique. Comme nous le savons, le régime d'apprentissage automatique demande aux chercheurs de former leurs modèles sur les données de formation, de choisir parmi les modèles candidats par ensemble de validation et de rendre compte de la précision sur …
Étant donné une matrice Vm×nVm×n\mathbf V^{m \times n} , la factorisation matricielle non négative (NMF) trouve deux matrices non négatives Wm×kWm×k\mathbf W^{m \times k} et Hk×nHk×n\mathbf H^{k \times n} (c'est-à-dire avec tous les éléments ≥0≥0\ge 0 ) pour représenter la matrice décomposée comme: V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, WW\mathbf …
J'analyse un ensemble de données à l'aide d'un modèle à effets mixtes avec un effet fixe (condition) et deux effets aléatoires (participant en raison de la conception et de la paire du sujet). Le modèle a été généré avec le lme4package: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Ensuite, j'ai effectué un test de rapport de …
Lors de l'utilisation du bootstrap pour l'évaluation de modèles, j'ai toujours pensé que les échantillons hors sac étaient directement utilisés comme ensemble de test. Cependant, cela ne semble pas être le cas pour l' approche obsolète de scikit-learnBootstrap , qui semble construire l'ensemble de test à partir d'un dessin avec …
Je fais la classification d'images en utilisant l'apprentissage automatique. Supposons que j'ai des données d'entraînement (images) et que je vais diviser les données en ensembles d'apprentissage et de validation. Et je veux aussi augmenter les données (produire de nouvelles images à partir des images originales) par des rotations aléatoires et …
J'ai parcouru divers fils ici, mais je ne pense pas que ma question exacte soit répondue. J'ai un ensemble de données d'environ 50 000 étudiants et leur temps d'abandon. Je vais effectuer une régression des risques proportionnels avec un grand nombre de covariables potentielles. Je vais également faire une régression …
Je rédige une revue de la littérature sur un problème de santé publique actuel où les données sont confondues: Quelles sont les études de cas historiques courantes utilisées dans l'enseignement de la santé publique / épidémiologie où des relations ou des inférences invalides ou confondues ont été intentionnellement ou erronément …
J'ai déjà entendu l'expression suivante: "L'optimisation est la racine de tout mal dans les statistiques". Par exemple, la première réponse dans ce fil fait cette déclaration en référence au danger d'optimiser trop agressivement lors de la sélection du modèle. Ma première question est la suivante: cette citation est-elle attribuable à …
Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Maintenant que j'ai une Rtrame de données (formation), quelqu'un peut-il me dire comment diviser au hasard cet ensemble de données pour …
Je fais une validation croisée en utilisant la méthode du congé-un. J'ai une réponse binaire et j'utilise le package de démarrage pour R et la fonction cv.glm . Mon problème est que je ne comprends pas bien la partie "coût" de cette fonction. D'après ce que je peux comprendre, c'est …
Après avoir lu l' un des "Conseils de recherche" de RJ Hyndman sur la validation croisée et les séries chronologiques, je suis revenu à une vieille question que je vais essayer de formuler ici. L'idée est que dans les problèmes de classification ou de régression, l'ordre des données n'est pas …
Scikit a CalibratedClassifierCV , qui nous permet d'étalonner nos modèles sur une paire X, y particulière. Il indique également clairement quedata for fitting the classifier and for calibrating it must be disjoint. S'ils doivent être disjoints, est-il légitime de former le classificateur avec les éléments suivants? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, …
Ma compréhension générale est que l' AIC traite de l'arbitrage entre la qualité de l'ajustement du modèle et la complexité du modèle. A jeC= 2 k - 2 l n ( L )UNEjeC=2k-2ln(L)AIC =2k -2ln(L) = nombre de paramètres dans le modèlekkk = vraisemblanceLLL Le critère d'information bayésien BIC est …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.