Quel est le problème avec l'extrapolation?


68

Je me souviens d'avoir assisté à des cours de statistiques en tant qu'étudiant de premier cycle sur pourquoi l'extrapolation était une mauvaise idée. En outre, de nombreuses sources en ligne commentent ce sujet. Il y a aussi une mention de cela ici .

Quelqu'un peut-il m'aider à comprendre pourquoi l'extrapolation est une mauvaise idée? Si c'est le cas, comment se fait-il que les techniques de prévision ne soient pas statistiquement non valides?


3
@ Firebug Mark Twain avait quelque chose à dire à ce sujet. Le passage en question est cité vers la fin de ma réponse à l' adresse stats.stackexchange.com/a/24649/919 .
whuber

1
@ Whuber J'imagine que ce n'est pas vraiment une extrapolation en ce moment. Disons que nous formons et validons correctement un algorithme pour prédire les données une semaine après le début de la fonctionnalité. Si vous effectuez le rééchantillonnage correct (et le réglage, s'il y a des hyperparamètres à régler), je ne vois pas ce qui ne va pas, vous avez une réponse et vous devez également connaître la confiance de cette réponse. Maintenant, si vous entraînez votre algorithme semaine par semaine, vous ne pouvez pas vous attendre à prédire avec précision une année future. Désolé pour la confusion possible.
Firebug

7
@Firebug Inutile de vous excuser - vos remarques contiennent des informations de clarification utiles. Au fur et à mesure que je les lis, ils suggèrent qu'une "extrapolation" peut avoir plusieurs interprétations dans un contexte de prévision. La première est que cela implique une "extrapolation" du temps. Toutefois, lorsque vous examinez des modèles de séries chronologiques standard, en particulier ceux où le temps n'est pas une covariable explicite, ils prédisent les valeurs futures en termes de valeurs précédentes . Lorsque ces valeurs précédentes restent dans les plages des valeurs précédentes, le modèle n'effectue aucune extrapolation! C'est peut-être là une résolution du paradoxe apparent.
whuber


2
Je suis déçu du temps qu'il a fallu pour que l'obligation de xkcd apparaisse.
Duncan X Simpson

Réponses:


89

Un modèle de régression est souvent utilisé pour l'extrapolation, c'est-à-dire pour prédire la réponse à une entrée située en dehors de la plage des valeurs de la variable de prédicteur utilisée pour s'adapter au modèle. Le danger associé à l'extrapolation est illustré dans la figure suivante. graphique montrant la ligne extrapolée continuant vers le haut où la "vraie" valeur diminue

Le modèle de régression est «par construction» un modèle d'interpolation et ne doit pas être utilisé pour l'extrapolation, à moins que cela ne soit dûment justifié.


1
C'est un exemple terrible contre l'extrapolation. La droite de régression ajuste bien mieux les points de données que votre vraie fonction sinueuse.
HoraceT

10
"La ligne de régression droite ajuste bien mieux les points de données que votre fonction vraie sinueuse" Cette affirmation est fausse. Le RSS pour la vraie fonction de régression est plus petit que RSS pour la ligne de régression simple,
Kostia

Point pris et vous pouvez (devriez) avoir raison. Mais à en juger par le lot de points, il n’ya aucun moyen de déduire la vraie fonction.
HoraceT

29
Exactement. Et c'est pourquoi l'extrapolation peut être une mauvaise idée.
Kostia

"Le modèle de régression est" par construction "un modèle d'interpolation" -> Je suppose que nous pouvons avoir exactement le même problème avec l'interpolation (même si c'est moins susceptible de se produire)
Metariat

88

Cette bande dessinée xkcd explique tout.

bande dessinée xkcd

En utilisant les points de données que Cueball (l'homme au bâton) a, il a extrapolé que la femme aura "quatre douzaines" de maris d'ici la fin du mois prochain et a utilisé cette extrapolation pour conclure à l'achat en gros du gâteau de mariage.

Edit 3: Pour ceux d'entre vous qui disent "il n'a pas assez de points de données", voici une autre bande dessinée xkcd :

bande dessinée xkcd

Ici, l'utilisation du mot "durable" au fil du temps est montrée sur une parcelle semi-logarithmique, et en extrapolant les points de données, nous recevons une estimation déraisonnable de la fréquence à laquelle le mot "durable" apparaîtra à l'avenir.

Edit 2: Pour ceux d’entre vous qui disent "vous avez aussi besoin de tous les points de données passés", encore un autre BD xkcd: bande dessinée xkcd

Ici, nous avons tous les points de données passés, mais nous ne pouvons pas prédire avec précision la résolution de Google Earth. Notez qu'il s'agit également d'un graphique semi-log.

Edit: Parfois, même la plus forte des corrélations (r = .9979 dans ce cas) est tout simplement fausse.


Si vous extrapolez sans autre preuve à l'appui, vous violez également la corrélation n'implique pas un lien de causalité ; un autre grand péché dans le monde des statistiques.

Si vous extrapolez X avec Y, vous devez toutefois vous assurer que vous pouvez prédire avec précision (suffisamment pour répondre à vos besoins) X avec seulement Y. Presque toujours, l'impact de X dépend de multiples facteurs.

J'aimerais partager un lien vers une autre réponse qui l'explique dans les mots de Nassim Nicholas Taleb.


14
xkcd a une blague sur tous les problèmes possibles de maths / statistiques que l’on peut rencontrer, n’est-ce pas?
Ander Biguri

25
Cette idée pourrait aussi bien servir d’argument contre l’interpolation: «Hier soir, tu avais 0,5 mari».
JiK

3
@JiK Si tout ce que vous savez, c'est qu'elle en a un maintenant et qu'il y a deux jours, elle n'en avait pas, ce n'est pas une mauvaise estimation ;-)
Dennis Jaheruddin Le

9
Durable Durable Durable Durable Durable Durable Durable. en.wikipedia.org/wiki/…
Meni Rosenfeld

1
plus xkcd, les gens!
nozɐɹƆ

24

"La prévision est très difficile, surtout s'il s'agit de l'avenir". La citation est attribuée à beaucoup de gens sous une forme ou une autre . Dans "l'extrapolation" suivante, je me limite à "prédiction en dehors de la plage connue" et, dans un cadre unidimensionnel, à une extrapolation d'un passé connu à un avenir inconnu.

Alors, qu'est-ce qui ne va pas avec l'extrapolation? Tout d'abord, il n'est pas facile de modéliser le passé . Deuxièmement, il est difficile de savoir si un modèle du passé peut être utilisé pour l'avenir . Derrière ces deux assertions se cachent de profondes questions sur la causalité ou l'ergodicité, la suffisance des variables explicatives, etc., qui dépendent fortement du cas. Ce qui ne va pas, c'est qu'il est difficile de choisir un schéma d'extrapolation unique qui fonctionne correctement dans différents contextes, sans beaucoup d'informations supplémentaires.

x

Quatuor Anscombe

Cependant, les prévisions peuvent être corrigées dans une certaine mesure. En ajoutant à d'autres réponses, quelques ingrédients peuvent aider une extrapolation pratique:

  1. npfp(n)pn
  2. Vous pouvez utiliser plusieurs modèles d'extrapolation et les combiner ou sélectionner le meilleur ( Combining pronostics , J. Scott Armstrong, 2001). Récemment, de nombreux travaux ont été réalisés sur leur combinaison optimale (je peux fournir des références si nécessaire).

Récemment, j'ai participé à un projet d'extrapolation de valeurs pour la communication de sous-systèmes de simulation dans un environnement en temps réel. Le dogme dans ce domaine était que l'extrapolation pouvait causer l'instabilité. Nous avons en fait réalisé que la combinaison des deux ingrédients ci-dessus était très efficace, sans instabilité notable (sans preuve formelle pour le moment, et en cours de révision ). Et l'extrapolation a fonctionné avec des polynômes simples, avec une charge de calcul très faible, la plupart des opérations étant calculées à l'avance et stockées dans des tables de recherche.

Enfin, comme l’extrapolation suggère un dessin amusant, voici l’effet en arrière de la régression linéaire:

Amusement avec amour et régression linéaire


+1 belle réponse. Selon ce site, il semble peu probable que Bohr l'ait dit. Il semble plus probable que ce soit un proverbe danois peu commun mais générique.
usεr11852 dit Rétablir Monic

@ usεr11852 Peu probable qu'il "ait déjà dit cela"? C'est pourquoi j'ai dit "attribué", devrais-je être plus prudent?
Laurent Duval

2
Je n'ai jamais dit la partie jamais . J’ai fait ce commentaire car, étant donné que le dicton semble beaucoup plus susceptible d’être un proverbe danois, l’attribuer à un Danois (extrêmement emblématique) semble un peu trop facturé - d’autant plus qu’il n’existe aucun témoignage de Bohr. L'auteur original pourrait être un pêcheur anonyme qui commente les prises de demain! Je cherche le petit gars ici! : D
usεr11852 dit Rétablir Monic

2
Très difficile de modéliser les légendes des citations passées.
Laurent Duval

3
Certes, la question utilise les deux mots: tout le problème est de savoir si la "prévision" doit être considérée comme une forme "d'extrapolation". Selon vos commentaires d'introduction, vous semblez définir l'extrapolation comme l'utilisation du passé pour "modéliser l'avenir". Tant que vous n’offrerez pas de définitions claires et distinctes pour chacune d’elles, votre réponse pourrait être mal comprise.
whuber

17

Bien que l'ajustement d'un modèle puisse être " bon ", l'extrapolation au-delà de la plage des données doit être traitée avec scepticisme. La raison en est que, dans de nombreux cas, l'extrapolation (malheureusement et inévitablement) repose sur des hypothèses indestimables concernant le comportement des données au-delà de leur support observé.

xout

Une mise en garde supplémentaire est que de nombreuses techniques d'estimation non paramétriques ne permettent pas d'extrapolation de manière native. Ce problème est particulièrement visible dans le cas du lissage des splines où il n’ya plus de nœuds pour ancrer la spline ajustée.

Permettez-moi de souligner que l'extrapolation est loin du mal. Par exemple, les méthodes numériques largement utilisées dans Statistics (par exemple le processus delta-carré d'Aitken et l'extrapolation de Richardson ) sont essentiellement des schémas d'extrapolation basés sur l'idée que le comportement sous-jacent de la fonction analysée pour les données observées reste stable quel que soit le support de la fonction.


εΔ2

15

Contrairement à d'autres réponses, je dirais qu'il n'y a rien de mal à l'extrapolation dans la mesure où elle n'est pas utilisée de manière aveugle. Tout d'abord, notez que l' extrapolation est :

le processus d'estimation, au-delà de la plage d'observation initiale, de la valeur d'une variable sur la base de sa relation avec une autre variable.

... c'est donc un terme très large et de nombreuses méthodes différentes, allant de la simple extrapolation linéaire à la régression linéaire, à la régression polynomiale ou même à certaines méthodes avancées de prévision de séries chronologiques qui correspondent à cette définition. En fait, extrapolation, prévision et prévision sont étroitement liées. En statistiques, nous faisons souvent des prévisions et des prévisions . C’est aussi ce que dit le lien auquel vous faites référence:

Dès le premier jour des statistiques, nous apprenons que l’extrapolation est un non-non, mais c’est exactement ce que la prévision est.

De nombreuses méthodes d'extrapolation sont utilisées pour faire des prédictions. De plus, souvent, des méthodes simples fonctionnent plutôt bien avec de petits échantillons et peuvent donc être préférées aux méthodes compliquées. Le problème est, comme noté dans d'autres réponses, lorsque vous utilisez la méthode d'extrapolation de manière incorrecte.

Par exemple, de nombreuses études montrent que l'âge d'initiation sexuelle diminue avec le temps dans les pays occidentaux. Jetez un coup d'œil à l'intrigue ci-dessous concernant l'âge du premier rapport sexuel aux États-Unis. Si nous utilisions aveuglément la régression linéaire pour prédire l'âge du premier rapport sexuel, nous prédirions qu'elle passe sous zéro à un certain nombre d'années (en conséquence, le premier mariage et la première naissance surviennent à un moment après la mort) ... Cependant, si vous deviez faire prévision sur un an, alors je suppose que la régression linéaire permettrait d’obtenir des prévisions assez précises pour la tendance.

entrez la description de l'image ici

(source guttmacher.org )

Tous les modèles sont erronés , l'extrapolation l'est également, car elle ne vous permettrait pas de prédire avec précision. Comme d’autres outils mathématiques / statistiques, il vous permettra de faire des prévisions approximatives . Leur degré de précision dépend de la qualité des données dont vous disposez, en utilisant des méthodes adaptées à votre problème, des hypothèses que vous avez formulées lors de la définition de votre modèle et de nombreux autres facteurs. Mais cela ne signifie pas que nous ne pouvons pas utiliser de telles méthodes. Nous pouvons le faire, mais nous devons nous rappeler leurs limites et évaluer leur qualité pour un problème donné.


4
Lorsque les données que vous utilisez pour la régression prennent fin au début des années 80, vous pouvez probablement facilement vérifier combien de temps après cette extrapolation fonctionnerait.
gerrit

@ gerrit Je suis d'accord, mais malheureusement, je n'ai pas pu trouver les données appropriées. Mais si quelqu'un pouvait me le signaler, je serais heureux de mettre à jour ma réponse pour une telle comparaison.
Tim

Dans ce cas, l'extrapolation échoue, étant donné que l'âge du premier rapport sexuel a fait un bond ces dernières années. (Mais les données pour cette année de naissance sont toujours décalées de plusieurs décennies, pour des raisons qui devraient être évidentes.)
David Manheim

13

J'aime assez l'exemple de Nassim Taleb (qui était une adaptation d'un exemple précédent de Bertrand Russell):

Considérons une dinde qui est nourrie tous les jours. Chaque repas nourrira la conviction de l'oiseau que c'est la règle générale de la vie qui consiste à nourrir chaque jour de sympathiques membres de la race humaine "soucieux de son intérêt", comme dirait un homme politique. Dans l'après-midi du mercredi précédant Thanksgiving, la dinde aura quelque chose d'inattendu. Cela entraînera une révision de la croyance.

Certains analogues mathématiques sont les suivants:

  • la connaissance des premiers coefficients de Taylor d'une fonction ne garantit pas toujours que les coefficients suivants suivront votre modèle présumé.

  • la connaissance des conditions initiales d'une équation différentielle ne garantit pas toujours la connaissance de son comportement asymptotique (par exemple, les équations de Lorenz, parfois déformées en ce qu'on appelle "l'effet papillon")

Voici un joli fil MO sur la question.


3
… Et bien sûr, Taleb doit souligner la leçon de morale: "ne soyez pas une dinde"! Dans ce contexte: ne soyez pas un extrapolateur négligent et ne succombez pas au péché d'orgueil.
JM n'est pas un statisticien

@ uoɥʇʎPʎzɐɹC, je ne le demandais pas, mais merci!
JM n'est pas un statisticien le

n’a pas vraiment d’utilisation pour la réputation validée de manière croisée - et personne n’a vu votre réponse et c’était vraiment bien. Prendre plaisir!
nozɐɹƆ

12

Réfléchissez à l'histoire suivante, si vous voulez.

Je me souviens aussi d'avoir suivi un cours de statistique et le professeur nous a dit que l'extrapolation était une mauvaise idée. Puis, lors du prochain cours, il nous a dit que c'était encore une mauvaise idée; en fait, il l'a dit deux fois.

J'étais malade pour le reste du semestre, mais j'étais certain de ne pas avoir manqué beaucoup de choses, car la semaine dernière, le gars n'avait sûrement pas fait autre chose que dire aux gens encore et encore que l'extrapolation était une mauvaise idée. .

Curieusement, je n’ai pas obtenu une très bonne note à l’examen.


6
La question demande "qu'est-ce qui ne va pas avec l'extrapolation?". Nous cherchons des réponses qui donnent les raisons pour lesquelles l'extrapolation pourrait être une mauvaise idée.
Robert Long

8
@RobertLong: C'est en fait une sorte de réponse méta / blague et assez similaire à xkcd.com/605 - peut-être encore mieux comme commentaire que comme réponse.
Neil Slater

@NeilSlater: Vous devriez avoir posté votre commentaire comme réponse ... :)
usεr11852 dit Réintégrer Monic

@RobertLong: C'est ce genre de réponse. Cela a simplement la forme d'une parabole.
einpoklum - réintègre Monica le

2
Il n'est pas clair que votre modèle est exponentiel.
gerrit

6

La question n’est pas seulement statistique, c’est aussi épistémologique. L'extrapolation est l'une des façons dont nous apprenons la nature, c'est une forme d' induction . Supposons que nous ayons des données sur la conductivité électrique d'un matériau dans une plage de températures allant de 0 à 20 degrés Celsius. Que pouvons-nous dire de la conductivité à 40 degrés Celsius?

Cela est étroitement lié à la déduction d'un petit échantillon: que peut-on dire de la population entière à partir de mesures effectuées sur un petit échantillon? Cela a été lancé par Gosset en tant que Guiness , qui a proposé les distributions de Student. Avant lui, les statisticiens ne se sont pas souciés de penser aux petits échantillons en supposant que la taille de l'échantillon puisse toujours être grande. Il était à Guinnes et devait traiter des échantillons de bière pour décider quoi faire du lot de bière à expédier.

Donc, dans la pratique (affaires), l'ingénierie et la science, nous devons toujours extrapoler d'une certaine manière. Il peut s'agir d'extrapoler de petits échantillons en échantillons volumineux, ou d'une gamme limitée de conditions d'entrée à un ensemble plus large de conditions, allant de ce qui se passe dans l'accélérateur à ce qui est arrivé à un trou noir situé à des milliards de kilomètres, etc. C'est particulièrement important en science, bien que , comme nous l’avons vraiment appris en étudiant les écarts entre nos estimations par extrapolation et nos mesures réelles. Nous trouvons souvent de nouveaux phénomènes lorsque les écarts sont importants ou cohérents.

par conséquent, je dis qu'il n'y a pas de problème d'extrapolation. C'est quelque chose que nous devons faire tous les jours. C'est juste difficile.


4

L'extrapolation elle-même n'est pas forcément mauvaise, mais c'est un processus qui se prête à des conclusions plus déraisonnables que celles obtenues avec une interpolation.

  • L'extrapolation est souvent faite pour explorer des valeurs assez éloignées de la région échantillonnée. Si j'échantillonne 100 valeurs de 0 à 10, puis extrapole un tout petit peu jusqu'à 11, mon nouveau point est probablement 10 fois plus éloigné de tout point de donnée que toute interpolation. Cela signifie qu'il y a beaucoup plus d'espace pour qu'une variable devienne incontrôlable (qualitativement). Notez que j'ai intentionnellement choisi une extrapolation mineure. Cela peut devenir bien pire
  • L'extrapolation doit être faite avec des ajustements de courbe destinés à l'extrapolation. Par exemple, de nombreux ajustements polynomiaux sont très pauvres en extrapolation car les termes qui se comportent bien au-dessus de la plage échantillonnée peuvent exploser une fois que vous les quittez. Une bonne extrapolation dépend d'une "bonne estimation" de ce qui se passe en dehors de la région échantillonnée. Ce qui m'amène à ...
  • Il est souvent extrêmement difficile d’utiliser l’extrapolation en raison de la présence de transitions de phase. De nombreux processus sur lesquels on peut souhaiter extrapoler ont des propriétés résolument non linéaires qui ne sont pas suffisamment exposées sur la région échantillonnée. L’aéronautique autour de la vitesse du son en est un excellent exemple. De nombreuses extrapolations à partir de vitesses inférieures se désintègrent lorsque vous atteignez et dépassez la vitesse de transfert d'informations dans les airs. Cela se produit aussi assez souvent avec les sciences sociales, où la politique elle-même peut avoir un impact sur le succès de la politique. L’économie keynésienne a extrapolé comment l’économie se comporterait avec différents niveaux d’inflation et prédit le meilleur résultat possible. Malheureusement, il y a eu des effets de second ordre et le résultat n'a pas été une prospérité économique, mais plutôt l'un des taux d'inflation les plus élevés que les États-Unis aient connus.
  • Les gens aiment les extrapolations. De manière générale, les gens veulent vraiment que quelqu'un scrute une boule de cristal et leur dise l'avenir. Ils accepteront des extrapolations étonnamment mauvaises simplement parce que ce sont toutes les informations dont ils disposent. Cela peut ne pas rendre l’extrapolation en soi mauvaise, mais c’est certainement une chose à prendre en compte lors de son utilisation.

Pour l'extrapolation ultime, considérons le projet Manhattan. Les physiciens étaient forcés de travailler avec des tests à très petite échelle avant de construire la vraie chose. Ils n'avaient tout simplement pas assez d'uranium à gaspiller aux tests. Ils ont fait de leur mieux et ils étaient intelligents. Cependant, lorsque le test final a eu lieu, il a été décidé que chaque scientifique déciderait de la distance qui le séparait de l'explosion à laquelle il souhaitait être exposé. Il y avait des divergences d'opinions substantielles sur la sécurité des distances, car tous les scientifiques savaient qu'ils extrapolaient assez loin de leurs tests. Il y avait même une considération non triviale selon laquelle ils pourraient enflammer l'atmosphère avec la bombe nucléaire, un problème également résolu par une extrapolation substantielle!


3

Beaucoup de bonnes réponses ici, je veux juste essayer de synthétiser ce que je considère comme le cœur du problème: il est dangereux d’extrapoler au-delà du processus de génération de données qui a donné lieu à l’échantillon d’estimation. Cela s'appelle parfois un «changement structurel».

La prévision s'accompagne d'hypothèses, la principale étant que le processus de génération de données est (pour autant qu'il ne fasse aucune différence significative) identique à celui qui a généré l'échantillon (sauf pour les variables rhs, dont vous tenez compte explicitement dans le modèle). . Si un changement structurel se produit (par exemple, Thanksgiving dans l'exemple de Taleb), tous les paris sont ouverts.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.