Fait référence à la pratique consistant à évaluer les performances d'un modèle sur un ensemble de données «test», «non disponible» ou «hors échantillon» qui n'a pas été utilisé pour la construction du modèle.
Supposons que quelqu'un construise un modèle prédictif, mais que quelqu'un ne connaisse pas nécessairement les principes appropriés des statistiques ou de l'apprentissage automatique. Peut-être aidons-nous cette personne dans son apprentissage, ou peut-être utilise-t-elle une sorte de progiciel dont l'utilisation requiert un minimum de connaissances. Maintenant, cette personne pourrait très bien …
L'idée de l'analyse adaptative des données est que vous modifiez votre plan d'analyse des données à mesure que vous en apprenez davantage. Dans le cas de l'analyse exploratoire des données (EDA), c'est généralement une bonne idée (vous recherchez souvent des tendances imprévues dans les données), mais pour une étude de …
L'extrait suivant est tiré de Schwager's Hedge Fund Market Wizzards (mai 2012), une entrevue avec le gestionnaire de fonds de couverture à succès constant Jaffray Woodriff: À la question: "Quelles sont les pires erreurs que les gens commettent dans l'exploration de données?": Beaucoup de gens pensent qu'ils vont bien parce …
J'ai lu sur la validation k-fold, et je veux m'assurer de comprendre comment cela fonctionne. Je sais que pour la méthode d'exclusion, les données sont divisées en trois ensembles, et l'ensemble de test n'est utilisé qu'à la toute fin pour évaluer les performances du modèle, tandis que l'ensemble de validation …
Bien que les résultats de l'ensemble de test privé ne puissent pas être utilisés pour affiner davantage le modèle, la sélection de modèle parmi un grand nombre de modèles n'est-elle pas effectuée sur la base des résultats de l'ensemble de test privé? Ne seriez-vous pas, grâce à ce seul processus, …
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 2 ans . Je suis actuellement en train de …
Dans mon exposition en classe à l'exploration de données, la méthode de rétention a été introduite comme moyen d'évaluer les performances du modèle. Cependant, lorsque j'ai suivi mon premier cours sur les modèles linéaires, cela n'a pas été introduit comme moyen de validation ou d'évaluation des modèles. Ma recherche en …
Existe-t-il une différence explicite entre les prévisions dans l'échantillon et les prévisions pseudo-hors échantillon . Les deux sont conçus dans le contexte de l'évaluation et de la comparaison des modèles de prévision.
J'ai un ensemble de données avec 26 fonctionnalités et 31000 lignes. C'est l'ensemble de données de 38 sujets. C'est pour un système biométrique. Je veux donc pouvoir identifier les sujets. Afin d'avoir un ensemble de tests, je sais que je dois supprimer certaines valeurs. Alors, que vaut-il mieux faire et …
Pour autant que je l'ai vu, les opinions ont tendance à différer à ce sujet. Les meilleures pratiques dicteraient certainement l'utilisation de la validation croisée (surtout si l'on compare les RF avec d'autres algorithmes sur le même ensemble de données). D'un autre côté, la source d'origine indique que le fait …
J'ai une question qui, je pense, sera assez basique pour beaucoup d'utilisateurs. J'utilise des modèles de régression linéaire pour (i) étudier la relation entre plusieurs variables explicatives et ma variable de réponse et (ii) prédire ma variable de réponse en utilisant les variables explicatives. Une variable explicative particulière X semble …
Je sais que cela a probablement été discuté ailleurs, mais je n'ai pas pu trouver de réponse explicite. J'essaie d'utiliser la formule pour calculer hors échantillon d'un modèle de régression linéaire, où est la somme des carrés des résidus et est la somme totale des carrés. Pour l'ensemble de formation, …
J'ai toujours souscrit à la sagesse populaire selon laquelle la diminution du taux d'apprentissage dans un gbm (modèle d'arbre boosté par gradient) ne nuit pas aux performances hors échantillon du modèle. Aujourd'hui, je n'en suis pas si sûr. J'ajuste des modèles (minimisant la somme des erreurs quadratiques) au jeu de …
Cette question a déjà des réponses ici : Mon modèle est-il bon, basé sur la valeur de la métrique de diagnostic ( / AUC / précision / RMSE, etc.)? R2R2R^2 (3 réponses) Fermé il y a 8 mois . J'ai des données d'apprentissage composées de ~ 45k échantillons, chacun a …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.