Le contexte:
À partir d'une question sur Mathematics Stack Exchange (Puis-je créer un programme) , quelqu'un a un ensemble de points et veut y adapter une courbe, linéaire, exponentielle ou logarithmique. La méthode habituelle consiste à commencer par choisir l'un d'entre eux (qui spécifie le modèle), puis à effectuer les calculs statistiques.
Mais ce qui est vraiment recherché, c'est de trouver la «meilleure» courbe parmi linéaire, exponentielle ou logarithmique.
En apparence, on pourrait essayer les trois et choisir la courbe la mieux ajustée des trois en fonction du meilleur coefficient de corrélation.
Mais je pense que ce n'est pas tout à fait casher. La méthode généralement acceptée consiste à sélectionner d'abord votre modèle, l'un de ces trois (ou une autre fonction de lien), puis à partir des données, calculer les coefficients. Et la cueillette post facto du meilleur est la cueillette des cerises. Mais pour moi, que vous déterminiez une fonction ou des coefficients à partir des données, c'est toujours la même chose, votre procédure découvre la meilleure chose ... (disons que quelle fonction est -aussi- un autre coefficient à découvrir).
Des questions:
- Est-il approprié de choisir le meilleur modèle d'ajustement parmi les modèles linéaires, exponentiels et logarithmiques, sur la base d'une comparaison des statistiques d'ajustement?
- Si oui, quelle est la manière la plus appropriée de procéder?
- Si la régression permet de trouver des paramètres (coefficients) dans une fonction, pourquoi ne peut-il pas y avoir de paramètre discret pour choisir laquelle des trois familles de courbes les meilleures proviendront?