Comment peut-on objectivement (lire "algorithmiquement") sélectionner un modèle approprié pour effectuer une régression linéaire des moindres carrés simple avec deux variables?
Par exemple, disons que les données semblent montrer une tendance quadratique et qu'une parabole est générée, qui correspond assez bien aux données. Comment justifions-nous d'en faire la régression? Ou comment éliminer la possibilité d'exister un meilleur modèle?
Ce qui m'inquiète vraiment, c'est ceci: nous pourrions simplement continuer à ajouter des termes polynomiaux jusqu'à ce que nous ayons un ajustement parfait pour l'ensemble de données (une interpolation des points), sans aucune erreur. Mais cela ne servirait à rien de prévoir ou d'extrapoler, car il n'y aurait aucune raison de penser que le "modèle" était réellement approprié. Alors, comment équilibrer les besoins de précision et d'attrait intuitif?
(De plus, veuillez m'alerter si cela a déjà été demandé, j'ai supposé que cela l'aurait été mais je n'ai rien trouvé.)