Malheureusement, cette question n'a pas de bonne réponse. Vous pouvez choisir le meilleur modèle en fonction du fait qu'il minimise l'erreur absolue, l'erreur quadratique, maximise la vraisemblance, en utilisant certains critères qui pénalisent la vraisemblance (par exemple AIC, BIC) pour ne mentionner que quelques-uns des choix les plus courants. Le problème est qu'aucun de ces critères ne vous permettra de choisir le meilleur modèle objectivement, mais plutôt le meilleur à partir duquel vous avez comparé. Un autre problème est que, tout en optimisant, vous pouvez toujours vous retrouver dans un maximum / minimum local. Encore un autre problème est que votre choix de critères de sélection de modèle est subjectif . Dans de nombreux cas, vous décidez consciemment ou semi-consciemment de ce qui vous intéresse et choisissez les critères en fonction de cela. Par exemple, l'utilisation de BIC plutôt que d'AIC conduit à des modèles plus parcimonieux, avec moins de paramètres. Habituellement, pour la modélisation, vous êtes intéressé par des modèles plus parcimonieux qui mènent à des conclusions générales sur l'univers, tandis que pour le prédire, il ne doit pas en être ainsi et un modèle parfois plus compliqué peut avoir un meilleur pouvoir prédictif (mais pas nécessairement et souvent ce ne est pas). Dans d'autres cas encore, des modèles parfois plus compliqués sont préférés pour des raisons pratiques , par exemple lors de l'estimation d'un modèle bayésien avec MCMC, un modèle avec des hyperpriors hiérarchiques peut se comporter mieux en simulation que le plus simple. D'un autre côté, nous avons généralement peur de sur- équiperet le modèle plus simple présente un risque moindre de sur-ajustement, c'est donc un choix plus sûr. Un bon exemple pour cela est une sélection automatique de modèle par étapes qui n'est généralement pas recommandée car elle conduit facilement à des estimations surajustées et biaisées. Il existe également un argument philosophique, le rasoir d'Occam , selon lequel le modèle le plus simple est le modèle préféré. Notez également que nous discutons ici de la comparaison de différents modèles, alors que dans des situations réelles, cela peut également être le cas pour que l'utilisation de différents outils statistiques puisse conduire à des résultats différents - il y a donc une couche supplémentaire de choix de la méthode!
Tout cela conduit à un fait triste, mais divertissant, dont nous ne pouvons jamais être sûrs. Nous commençons par l'incertitude, utilisons des méthodes pour y faire face et nous nous retrouvons avec l'incertitude. Cela peut être paradoxal, mais rappelez-vous que nous utilisons des statistiques parce que nous pensons que le monde est incertain et probabiliste (sinon nous choisirions une carrière de prophètes), alors comment pourrions-nous éventuellement aboutir à des conclusions différentes? Il n'y a pas de règle d'arrêt objectif, il existe plusieurs modèles possibles, tous sont faux (désolé pour le cliché!) Car ils essaient de simplifier la réalité compliquée (en constante évolution et probabiliste). Nous trouvons certains d'entre eux plus utiles que d'autres pour nos besoins et parfois nous le faisonsθμ
Vous pouvez aller encore plus loin et découvrir qu'il n'y a pas de «probabilité» dans la réalité - c'est juste une approximation de l'incertitude qui nous entoure et il existe également d'autres façons de l'approcher comme par exemple la logique floue (voir Kosko, 1993 pour discuter). Même les outils et les théorèmes très basiques sur lesquels nos méthodes sont fondées sont des approximations et ne sont pas les seuls possibles. Nous ne pouvons tout simplement pas être certains dans une telle configuration.
La règle d'arrêt que vous recherchez est toujours spécifique au problème et subjective, c'est-à-dire basée sur ce que l'on appelle un jugement professionnel. Soit dit en passant, il existe de nombreux exemples de recherche qui ont montré que les professionnels ne sont souvent pas meilleurs et parfois même pire dans leur jugement que les profanes (par exemple, relancés dans des articles et des livres de Daniel Kahneman ), tout en étant plus enclins à la confiance excessive (c'est en fait un argument sur la raison pour laquelle nous ne devrions pas essayer d'être "sûrs" de nos modèles).
Kosko, B. (1993). Pensée floue: la nouvelle science de la logique floue. New York: Hyperion.