Extrapolation contre interpolation


28

Quelle est la différence entre extrapolation et interpolation, et quelle est la manière la plus précise d'utiliser ces termes?

Par exemple, j'ai vu une déclaration dans un article utilisant l'interpolation comme:

"La procédure interpole la forme de la fonction estimée entre les points bin"

Une phrase qui utilise à la fois l'extrapolation et l'interpolation est, par exemple:

L'étape précédente où nous avons extrapolé la fonction interpolée en utilisant la méthode Kernel aux queues de température gauche et droite.

Quelqu'un peut-il fournir un moyen clair et facile de les distinguer et de guider comment utiliser correctement ces termes avec un exemple?




@ usεr11852 Je pense que les deux questions couvrent un terrain similaire mais sont différentes car celle-ci demande le contraste avec l'interpolation.
mkt

Cette distinction entre interpolation et extrapolation a-t-elle été rigoureusement formalisée d'une manière généralement convenue (par exemple, via des coques convexes) ou ces termes sont-ils toujours soumis au jugement et à l'interprétation de l'homme?
Nick Alger

Réponses:


51

Pour ajouter une explication visuelle à ceci: considérons quelques points que vous prévoyez de modéliser.

entrez la description de l'image ici

Ils semblent pouvoir être bien décrits avec une ligne droite, vous leur adaptez donc une régression linéaire:

entrez la description de l'image ici

Cette ligne de régression vous permet à la fois d'interpoler (générer des valeurs attendues entre vos points de données) et d'extrapoler (générer des valeurs attendues en dehors de la plage de vos points de données). J'ai mis en évidence l'extrapolation en rouge et la plus grande région d'interpolation en bleu. Pour être clair, même les minuscules régions entre les points sont interpolées, mais je ne fais que souligner la grande ici.

entrez la description de l'image ici

Pourquoi l'extrapolation est-elle généralement plus préoccupante? Parce que vous êtes généralement beaucoup moins sûr de la forme de la relation en dehors de la plage de vos données. Considérez ce qui pourrait arriver lorsque vous collectez quelques points de données supplémentaires (cercles creux):

entrez la description de l'image ici

Il s'avère que la relation n'a pas été bien capturée avec votre relation hypothétique après tout. Les prédictions dans la région extrapolée sont loin. Même si vous aviez deviné la fonction précise qui décrit correctement cette relation non linéaire, vos données ne s'étalaient pas sur une plage suffisante pour que vous puissiez bien capturer la non-linéarité, vous pourriez donc être encore assez loin. Notez que c'est un problème non seulement pour la régression linéaire, mais pour toute relation - c'est pourquoi l'extrapolation est considérée comme dangereuse.

Les prédictions dans la région interpolée sont également incorrectes en raison du manque de non-linéarité dans l'ajustement, mais leur erreur de prédiction est beaucoup plus faible. Il n'y a aucune garantie que vous n'aurez pas de relation inattendue entre vos points (c'est-à-dire la région d'interpolation), mais c'est généralement moins probable.


J'ajouterai que l'extrapolation n'est pas toujours une idée terrible - si vous extrapolez un tout petit peu en dehors de la plage de vos données, vous n'allez probablement pas vous tromper (bien que ce soit possible!). Les anciens qui n'avaient pas de bon modèle scientifique du monde n'auraient pas eu tort s'ils avaient prévu que le soleil se lèverait à nouveau le lendemain et le lendemain (bien qu'un jour loin dans le futur, même cela échouera).

Et parfois, l' extrapolation peut même être instructif - par exemple, de simples extrapolations à court terme de l'augmentation exponentielle des concentrations atmosphériques de CO ont été assez précise au cours des dernières décennies. Si vous étiez un étudiant qui n'avait pas d'expertise scientifique mais qui voulait une prévision approximative à court terme, cela vous aurait donné des résultats assez raisonnables. Mais plus vous extrapolez vos données, plus votre prédiction est susceptible d'échouer, et échoue de manière désastreuse, comme décrit très bien dans ce grand fil: Qu'est-ce qui ne va pas avec l'extrapolation? (merci à @JMisnotastatistician de me le rappeler).2

Modifier en fonction des commentaires: qu'il s'agisse d'interpolation ou d'extrapolation, il est toujours préférable d'avoir une théorie pour fonder les attentes. Si une modélisation sans théorie doit être effectuée, le risque d'interpolation est généralement inférieur à celui de l'extrapolation. Cela dit, à mesure que l'écart entre les points de données augmente en amplitude, l'interpolation devient également de plus en plus lourde de risques.


5
J'aime votre réponse et la considère comme complémentaire à la mienne et nullement concurrente. Mais un petit point, important pour certains lecteurs, est que le rouge et le vert sont difficiles à distinguer visuellement par plusieurs personnes.
Nick Cox

1
@NickCox Bon point, merci d'avoir soulevé cette question - J'ai maintenant changé le schéma de couleurs.
mkt

1
@leftaroundabout Mon point était que le modèle de la courbe de Keeling est si fort que les extrapolations ignorant l'économie et la physique sont encore raisonnablement précises à l'échelle des années à quelques décennies. J'ai noté «les dernières décennies» précisément parce que c'est l'échelle de temps sur laquelle nous avons eu des mesures à haute résolution. C'est un exemple où l'extrapolation ne vous aurait pas gravement trompé et je pense que cela mérite d'être noté. Je pense qu'il faudrait une lecture erronée délibérée pour affirmer que cette réponse préconise une extrapolation sans théorie.
mkt

1
De manière similaire, j'ai donné "l'exemple de la dinde" de Taleb dans cette réponse comme un avertissement pour les personnes qui utilisent l'extrapolation.
JM n'est pas statisticien le

1
L'extrapolation est particulièrement problématique lorsque vous avez un sur-ajustement; avec un modèle polynomial, par exemple, un dépassement significatif de l'ensemble de données entraînera l'explosion du terme d'ordre le plus élevé.
Accumulation

21

L' interpolation est essentiellement une opération au sein du support de données , ou entre des points de données connus existants; extrapolation est au - delà du support de données . Autrement dit, le critère est: où sont les valeurs manquantes?

L'une des raisons de cette distinction est que l'extrapolation est généralement plus difficile à bien faire, et même dangereuse, statistiquement sinon pratiquement. Ce n'est pas toujours vrai: par exemple, les inondations fluviales peuvent submerger les moyens de mesurer le débit ou même le stade (niveau vertical), déchirant un trou dans l'enregistrement mesuré. Dans ces circonstances, l'interpolation de la décharge ou du stade est également difficile et être dans le support de données n'aide pas beaucoup.

À long terme, le changement qualitatif remplace généralement le changement quantitatif. Vers 1900, on craignait beaucoup que la croissance du trafic hippomobile ne submerge les villes avec des excréments indésirables. L'exponentielle dans les excréments a été remplacée par le moteur à combustion interne et ses différentes exponentielles.

Une tendance est une tendance est une tendance,
mais la question est, va-t-elle se plier?
Va-t-il changer son cours
Par une force imprévue
Et arriver à une fin prématurée?

- Alexander Cairncross

Cairncross, A. 1969. Prévisions économiques. The Economic Journal , 79: 797-812. doi: 10.2307 / 2229792 (citation p.797)


1
Bonne réponse. L'interprétation est juste là dans le nom - interpolation = pour lisser à l'intérieur, extrapolation = pour lisser au-delà.
Nuclear Wang

1
OMI, c'est la bonne réponse. Le «support des données» est l'élément essentiel; même si le point que vous souhaitez parcourir se situe entre deux points mesurés, il peut encore se trouver en dehors du support de données. Par exemple, si vous avez des données sur la prospérité pour les personnes de l'Antiquité romaine et de l'époque moderne, mais pas entre les deux, l'interpolation au moyen-âge serait très problématique. J'appellerais cela une extrapolation. OTOH, si vous avez des données dispersées de manière éparse mais uniforme sur toute la période, l'interpolation à une année particulière est beaucoup plus plausible.
leftaroundabout

1
@leftaroundabout Ce n'est pas parce que l'interpolation peut être effectuée sur une énorme lacune dans les données qu'elle est extrapolée. Vous vous trompez sur l'opportunité de la procédure pour la procédure elle-même. Parfois, l'interpolation est également une mauvaise idée.
mkt

1
@mkt: Je vais me ranger du côté gauche sur le fait que son premier exemple pourrait être considéré comme une extrapolation, car l'interpolation vs l'extrapolation n'est pas vraiment aussi bien définie que nous pouvons le penser. Une simple transformation de variables peut transformer l'interpolation en extrapolation. Dans son exemple, utiliser quelque chose comme des fonctions de distance au lieu du temps brut signifie que pendant le temps brut nous interpolons, dans les distances nous extrapolons ... et utiliser des temps bruts serait probablement une mauvaise idée.
Cliff AB

1
Voici ma réponse. Je ne ressens pas le besoin de le qualifier. Une large distinction entre interpolation et extrapolation n'exclut pas qu'il soit un peu difficile de décider ce qui est entrepris. Si vous avez un gros trou au milieu de l'espace de données, l'étiquetage peut aller dans les deux sens. Comme certains l'ont fait remarquer, le fait que la fin de la journée et le début de la nuit se confondent ne rend pas la distinction entre le jour et la nuit inutile ou inutile.
Nick Cox

12

Version TL; DR:

  • L' interpolation a lieu entre les points de données existants.
  • Une polation supplémentaire a lieu au-delà d'eux.

Mnémonique: en terpolation => en côté.

FWIW: Le préfixe signifie entre et extra signifie au-delà . Pensez aussi des inter routes nationales qui vont entre les Etats ou supplémentaires Terrestres au - delà de notre planète.


1

Exemple:

Étude: Vous voulez adapter une régression linéaire simple sur la taille à l'âge pour les filles de 6 à 15 ans. La taille de l'échantillon est de 100, l'âge est calculé par (date de mesure - date de naissance) / 365,25.

Après la collecte des données, le modèle est ajusté et obtient l'estimation de l'ordonnée à l'origine b0 et de la pente b1. cela signifie que nous avons E (taille | âge) = b0 + b1 * âge.

Lorsque vous voulez la taille moyenne pour l'âge de 13 ans, vous constatez qu'il n'y a pas de fille de 13 ans dans votre échantillon de 100 filles, l'une d'entre elles a 12,83 ans et l'autre 13,24.

Maintenant, vous branchez age = 13 dans la formule E (taille | age) = b0 + b1 * age. Cela s'appelle l'interpolation car les enfants de 13 ans sont couverts par la plage de vos données utilisées pour ajuster le modèle.

Si vous voulez obtenir la taille moyenne pour 30 ans et utiliser cette formule, cela s'appelle l'extrapolation, car l'âge de 30 ans est en dehors de la plage d'âge couverte par vos données.

Si le modèle a plusieurs covariables, vous devez être prudent car il est difficile de tracer la frontière couverte par les données.

En statistique, nous ne préconisons pas l'extrapolation.


"En statistiques, nous ne préconisons pas l'extrapolation." Une fraction majeure de l'analyse des séries chronologiques fait précisément cela ....
Nick Cox
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.