Pour ajouter une explication visuelle à ceci: considérons quelques points que vous prévoyez de modéliser.
Ils semblent pouvoir être bien décrits avec une ligne droite, vous leur adaptez donc une régression linéaire:
Cette ligne de régression vous permet à la fois d'interpoler (générer des valeurs attendues entre vos points de données) et d'extrapoler (générer des valeurs attendues en dehors de la plage de vos points de données). J'ai mis en évidence l'extrapolation en rouge et la plus grande région d'interpolation en bleu. Pour être clair, même les minuscules régions entre les points sont interpolées, mais je ne fais que souligner la grande ici.
Pourquoi l'extrapolation est-elle généralement plus préoccupante? Parce que vous êtes généralement beaucoup moins sûr de la forme de la relation en dehors de la plage de vos données. Considérez ce qui pourrait arriver lorsque vous collectez quelques points de données supplémentaires (cercles creux):
Il s'avère que la relation n'a pas été bien capturée avec votre relation hypothétique après tout. Les prédictions dans la région extrapolée sont loin. Même si vous aviez deviné la fonction précise qui décrit correctement cette relation non linéaire, vos données ne s'étalaient pas sur une plage suffisante pour que vous puissiez bien capturer la non-linéarité, vous pourriez donc être encore assez loin. Notez que c'est un problème non seulement pour la régression linéaire, mais pour toute relation - c'est pourquoi l'extrapolation est considérée comme dangereuse.
Les prédictions dans la région interpolée sont également incorrectes en raison du manque de non-linéarité dans l'ajustement, mais leur erreur de prédiction est beaucoup plus faible. Il n'y a aucune garantie que vous n'aurez pas de relation inattendue entre vos points (c'est-à-dire la région d'interpolation), mais c'est généralement moins probable.
J'ajouterai que l'extrapolation n'est pas toujours une idée terrible - si vous extrapolez un tout petit peu en dehors de la plage de vos données, vous n'allez probablement pas vous tromper (bien que ce soit possible!). Les anciens qui n'avaient pas de bon modèle scientifique du monde n'auraient pas eu tort s'ils avaient prévu que le soleil se lèverait à nouveau le lendemain et le lendemain (bien qu'un jour loin dans le futur, même cela échouera).
Et parfois, l' extrapolation peut même être instructif - par exemple, de simples extrapolations à court terme de l'augmentation exponentielle des concentrations atmosphériques de CO ont été assez précise au cours des dernières décennies. Si vous étiez un étudiant qui n'avait pas d'expertise scientifique mais qui voulait une prévision approximative à court terme, cela vous aurait donné des résultats assez raisonnables. Mais plus vous extrapolez vos données, plus votre prédiction est susceptible d'échouer, et échoue de manière désastreuse, comme décrit très bien dans ce grand fil: Qu'est-ce qui ne va pas avec l'extrapolation? (merci à @JMisnotastatistician de me le rappeler).2
Modifier en fonction des commentaires: qu'il s'agisse d'interpolation ou d'extrapolation, il est toujours préférable d'avoir une théorie pour fonder les attentes. Si une modélisation sans théorie doit être effectuée, le risque d'interpolation est généralement inférieur à celui de l'extrapolation. Cela dit, à mesure que l'écart entre les points de données augmente en amplitude, l'interpolation devient également de plus en plus lourde de risques.