Questions marquées «overfitting»

L'erreur de modélisation (en particulier l'erreur d'échantillonnage) au lieu de relations réplicables et informatives entre les variables améliore les statistiques d'ajustement du modèle, mais réduit la parcimonie et aggrave la validité explicative et prédictive.


1

1
Comment sélectionner le meilleur ajustement sans données sur-ajustées? Modélisation d'une distribution bimodale avec N fonctions normales, etc.
J'ai une distribution de valeurs évidemment bimodale, que je cherche à adapter. Les données peuvent être adaptées à 2 fonctions normales (bimodales) ou à 3 fonctions normales. De plus, il existe une raison physique plausible pour ajuster les données avec 3. Plus il y a de paramètres introduits, plus l'ajustement …

4
Sur-ajustement avec des classificateurs linéaires
Aujourd'hui, notre professeur a déclaré en classe qu '"il n'est pas possible de sur-équiper les classificateurs linéaires". Je pense que c'est faux, car même les classificateurs linéaires peuvent être sensibles aux valeurs aberrantes dans l'ensemble de formation - prenez par exemple une machine à vecteur de support à marge dure: …



2
Explication lucide de la «stabilité numérique de l'inversion matricielle» dans la régression des crêtes et son rôle dans la réduction de la surajustement
Je comprends que nous pouvons utiliser la régularisation dans un problème de régression des moindres carrés comme w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] et que ce problème a une solution de forme fermée comme: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. Nous voyons que dans la 2e équation, la régularisation consiste …




2
Rétro-test ou validation croisée lorsque le processus de création de modèle était interactif
J'ai quelques modèles prédictifs dont je voudrais tester les performances (c.-à-d. Prendre mon jeu de données, le «rembobiner» à un point antérieur dans le temps et voir comment le modèle aurait fonctionné de manière prospective). Le problème est que certains de mes modèles ont été construits via un processus interactif. …


1
Techniques pour détecter le sur-ajustement
J'ai eu un entretien d'embauche pour un poste en science des données. Au cours de l'entretien, on m'a demandé ce que je dois faire pour m'assurer que le modèle n'est pas trop adapté. Ma première réponse a été d'utiliser la validation croisée pour évaluer les performances du modèle. Cependant, l'intervieweur …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.