Dans le livre de Bishop's PRML, il dit que le sur-ajustement est un problème avec l'estimation de maximum de vraisemblance (MLE), et que le bayésien peut l'éviter.
Mais je pense que le sur-ajustement est un problème plus lié à la sélection du modèle, pas à la méthode utilisée pour faire l'estimation des paramètres. Autrement dit, supposons que j'ai un ensemble de données , qui est généré via , maintenant je pourrais choisir différents modèles pour ajuster les données et découvrir Lequel est le meilleur. Et les modèles considérés sont des modèles polynomiaux avec des ordres différents, est d'ordre 1, H_2 est d'ordre 2, H_3 est d'ordre 9.f ( x ) = s i n ( x ) ,H i H 1
Maintenant, j'essaie d'adapter les données à chacun des 3 modèles, chaque modèle a ses paramètres, notés pour .
En utilisant ML, j'aurai une estimation ponctuelle des paramètres du modèle , et est trop simple et sous-adaptera toujours les données, tandis que est trop complexe et surajustera les données, seul s'adaptera bien aux données.
Mes questions sont,
1) Le modèle surdimensionnera les données, mais je ne pense pas que ce soit le problème du ML, mais le problème du modèle en soi. Parce que, en utilisant ML pour n'entraîne pas de sur-ajustement. Ai-je raison?
2) Comparé au bayésien, le ML présente certains inconvénients, car il donne simplement l'estimation ponctuelle des paramètres du modèle , et il est trop sûr de lui. Alors que le bayésien ne repose pas uniquement sur la valeur la plus probable du paramètre, mais sur toutes les valeurs possibles des paramètres compte tenu des données observées , non?
3) Pourquoi le bayésien peut-il éviter ou diminuer le sur-ajustement? Si je comprends bien, nous pouvons utiliser le bayésien pour la comparaison de modèles, c'est-à-dire, étant donné les données , nous pourrions trouver la probabilité marginale (ou les preuves de modèle) pour chaque modèle considéré, puis choisir celle avec la probabilité marginale la plus élevée, à droite ? Si oui, pourquoi?