Retenue répétée de sous-ensembles de données pendant l'ajustement de modèle afin de quantifier les performances du modèle sur les sous-ensembles de données retenus.
J'utilise 2 types de régression logistique - l'un est le type simple, pour la classification binaire, et l'autre est la régression logistique ordinale. Pour calculer la précision de la première, j'ai utilisé la validation croisée, où j'ai calculé l'AUC pour chaque pli et ensuite calculé l'ASC moyenne. Comment puis-je le …
Mon collègue et moi ajustons une gamme de modèles d'effets mixtes linéaires et non linéaires dans R. On nous demande d'effectuer une validation croisée sur les modèles ajustés afin que l'on puisse vérifier que les effets observés sont relativement généralisables. C'est normalement une tâche triviale, mais dans notre cas, nous …
Le merveilleux paquet libsvm fournit une interface python et un fichier "easy.py" qui recherche automatiquement les paramètres d'apprentissage (coût et gamma) qui maximisent la précision du classificateur. Dans un ensemble de paramètres d'apprentissage candidat donné, la précision est opérationnalisée par la validation croisée, mais j'ai l'impression que cela sape l'objectif …
Nous avons un ensemble d'échantillons biologiques qui était assez cher à obtenir. Nous avons soumis ces échantillons à une série de tests pour générer des données qui sont utilisées pour construire un modèle prédictif. À cette fin, nous avons divisé les échantillons en ensembles d'apprentissage (70%) et d'essai (30%). Nous …
Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …
Comme vous le savez, il existe deux types populaires de validation croisée, le pliage en K et le sous-échantillonnage aléatoire (comme décrit dans Wikipedia ). Néanmoins, je sais que certains chercheurs rédigent et publient des articles où quelque chose qui est décrit comme un CV plié en K est en …
J'ai un modèle de régression simple ( y = param1 * x1 + param2 * x2 ). Lorsque j'adapte le modèle à mes données, je trouve deux bonnes solutions: La solution A, params = (2,7), est la meilleure sur l' ensemble d'entraînement avec RMSE = 2,5 MAIS! Solution B params …
Je forme un classificateur binaire SVM à l'aide de Scikit learn. En raison de la nature de mon problème, je dois éviter les faux négatifs. Comme rien n'est gratuit, je suis d'accord pour obtenir un taux plus élevé de faux positifs afin de réduire le nombre de faux négatifs. Comment …
J'ai eu un entretien d'embauche pour un poste en science des données. Au cours de l'entretien, on m'a demandé ce que je dois faire pour m'assurer que le modèle n'est pas trop adapté. Ma première réponse a été d'utiliser la validation croisée pour évaluer les performances du modèle. Cependant, l'intervieweur …
J'ai étiqueté des données composées de 10000 exemples positifs et 50000 exemples négatifs, ce qui donne un total de 60000 exemples. Évidemment, ces données sont déséquilibrées. Disons maintenant que je veux créer mon ensemble de validation et que je souhaite utiliser 10% de mes données pour le faire. Ma question …
Dans les études de psychologie, j'ai appris que nous devrions utiliser la méthode de Bonferroni pour ajuster le niveau de signification lors du test de plusieurs hypothèses sur un seul ensemble de données. Actuellement, je travaille avec des méthodes d'apprentissage automatique telles que les machines à vecteurs de support ou …
L'AIC est fréquemment recommandé comme critère pour comparer les modèles de prévision de séries chronologiques. Voir par exemple ceci dans le contexte des modèles de régression dynamique : L'AIC peut être calculé pour le modèle final et cette valeur peut être utilisée pour déterminer les meilleurs prédicteurs. C'est-à-dire que la …
Supposons que dans une analyse de régression dans R, j'ai une variable indépendante de type de facteur avec 3 niveaux dans mon jeu de données de train. Mais dans l'ensemble de données de test, la même variable de facteur a 5 niveaux. Par conséquent, je ne peux pas prédire les …
Dans cette page Wikipédia dans la sous-section pour la validation croisée de pli en K, il est dit "Dans la validation croisée de pli en K, l'échantillon d'origine est divisé de manière aléatoire en k sous-échantillons de taille égale. Parmi les k sous-échantillons, un seul sous-échantillon est conservé comme données …
Mon manuel sur la validation croisée est Les éléments de l'apprentissage statistique par Hastie et al. (2e éd.). Dans les sections 7.10.1 et 7.12, ils parlent de la différence entre l'erreur de test conditionnelleE(X∗,Y∗)[L(Y,f^(X))|τ]E(X∗,Y∗)[L(Y,f^(X))|τ]E_{(X^*,Y^*)}[L(Y, \hat{f}(X))|\tau] et erreur de test attendue Eτ[E(X∗,Y∗)[L(Y,f^(X))|τ]].Eτ[E(X∗,Y∗)[L(Y,f^(X))|τ]].E_\tau [E_{(X^*,Y^*)}[L(Y, \hat{f}(X))|\tau]]. Ici ττ\tau est l'ensemble de données de …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.