Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
Dans la discussion: comment générer une courbe roc pour la classification binaire , je pense que la confusion était qu'un "classificateur binaire" (qui est tout classificateur qui sépare 2 classes) était pour Yang ce qu'on appelle un "classificateur discret" (qui produit sorties discrètes 0/1 comme un SVM) et non pas …
J'ai quelques données et je veux construire un modèle (disons un modèle de régression linéaire) à partir de ces données. Dans une prochaine étape, je souhaite appliquer la validation croisée avec absence de changement (LOOCV) sur le modèle afin de voir à quel point il fonctionne. Si j'ai bien compris …
Je fais une validation croisée imbriquée. J'ai lu que la validation croisée avec un seul retrait peut être biaisée (je ne me souviens pas pourquoi). Est-il préférable d'utiliser la validation croisée 10 fois ou la validation croisée avec suppression de la mise à part le temps d'exécution plus long pour …
Quelle est la méthode d'échantillonnage la plus appropriée pour évaluer la performance d'un classificateur sur un ensemble de données particulier et la comparer avec d'autres classificateurs? La validation croisée semble être une pratique standard, mais j'ai lu que des méthodes telles que le bootstrap .632 sont un meilleur choix. À …
Je cherche une référence à l'article où la validation croisée k-fold a été introduite (plutôt qu'une simple bonne référence académique pour le sujet). Il est peut-être trop loin dans la nuit des temps pour identifier sans ambiguïté le tout premier article, de sorte que tous les premiers articles où l'idée …
Je comprends le rôle que joue lambda dans une régression élastique-nette. Et je peux comprendre pourquoi on sélectionnerait lambda.min, la valeur de lambda qui minimise l'erreur de validation croisée. Ma question est: où dans la littérature statistique est-il recommandé d'utiliser lambda.1se, quelle est la valeur de lambda qui minimise l'erreur …
J'ai trouvé des définitions potentiellement contradictoires pour la statistique de validation croisée (CV) et pour la statistique de validation croisée généralisée (GCV) associée à un modèle linéaire (avec un vecteur d'erreur homoscédastique normal ).εOui= Xβ + εOui=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon D'une part, Golub, Heath & Wahba définissent l'estimation GCV …
Ce matin, je me suis réveillé en me demandant (cela pourrait être dû au fait que la nuit dernière je n'ai pas beaucoup dormi): étant donné que la validation croisée semble être la pierre angulaire de la prévision des séries chronologiques, quels sont les modèles que je devrais "normalement "contre-valider? …
Je suis intéressé par la sélection de modèles dans un cadre de séries chronologiques. Pour être concret, supposons que je veuille sélectionner un modèle ARMA à partir d'un pool de modèles ARMA avec différents ordres de décalage. L' intention ultime est la prévision . La sélection du modèle peut être …
J'ai lu de nombreux articles de recherche sur la classification des sentiments et des sujets connexes. La plupart d'entre eux utilisent une validation croisée 10 fois pour former et tester les classificateurs. Cela signifie qu'aucun test / validation séparé n'est effectué. Pourquoi donc? Quels sont les avantages / inconvénients de …
Dans son article Linear Model Selection by Cross-Validation , Jun Shao montre que pour le problème de la sélection des variables dans la régression linéaire multivariée, la méthode de validation croisée avec oubli (LOOCV) est `` asymptotiquement incohérente ''. En clair, il a tendance à sélectionner des modèles avec trop …
Intro: J'ai un ensemble de données avec un problème classique "grand p, petit n". Le nombre d'échantillons disponibles n = 150 tandis que le nombre de prédicteurs possibles p = 400. Le résultat est une variable continue. Je veux trouver les descripteurs les plus "importants", c'est-à-dire ceux qui sont les …
Comment les modèles d'effets mixtes (linéaires) sont-ils normalement comparés les uns aux autres? Je sais que des tests de rapport de vraisemblance peuvent être utilisés, mais cela ne fonctionne pas si un modèle n'est pas un «sous-ensemble» de l'autre correct? L'estimation des modèles df est-elle toujours simple? Nombre d'effets fixes …
Lorsque vous essayez de sélectionner parmi différents modèles ou le nombre de fonctionnalités à inclure, disons la prédiction, je peux penser à deux approches. Divisez les données en ensembles de formation et de test. Mieux encore, utilisez le bootstrapping ou la validation croisée k-fold. Entraînez-vous à chaque fois sur l'ensemble …
J'ai des données historiques sur les ventes d'une boulangerie (quotidiennement, sur 3 ans). Maintenant, je veux construire un modèle pour prédire les ventes futures (en utilisant des fonctionnalités comme le jour de la semaine, les variables météorologiques, etc.). Comment dois-je diviser l'ensemble de données pour ajuster et évaluer les modèles? …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.