Quelle est la différence entre la prédiction et l'inférence?


37

Je suis en train de lire " Une introduction à l'apprentissage statistique ". Dans le chapitre 2, ils discutent de la raison d'estimer une fonctionF.

2.1.1 Pourquoi une estimation F?

Il existe deux raisons principales pour lesquelles nous pouvons souhaiter estimer f : prédiction et inférence . Nous discutons chacun à son tour.

Je l'ai relue à quelques reprises, mais je ne comprends toujours pas bien la différence entre prédiction et inférence. Quelqu'un pourrait-il donner un exemple (pratique) des différences?


5
Les auteurs de Une introduction à l’apprentissage statistique nous ont rendu un mauvais service ici. On fait des déductions pour faire des prédictions comme on fait des déductions pour comprendre les causes et les effets. Merriam-webster.com définit "déduire" principalement comme "tirer comme conclusion des faits ou des prémisses". Cela couvre à la fois le raisonnement causal et prédictif. Il est trompeur, déroutant et contraire à l’usage standard à long terme de préciser la définition de "déduire" pour n’inclure que les questions de causalité. Donc: comparons l'inférence prédictive à l'inférence causale.
rolando2

2
@ rolando2: Ensuite, je suppose que nous avons également besoin d'une inférence descriptive , c'est-à-dire d'une inférence à propos de paramètres dans des modèles descriptifs (non causaux).
kjetil b halvorsen

Réponses:


29

Inférence: Étant donné un ensemble de données que vous souhaitez déduire de la façon dont la sortie est générée en fonction des données.

Prédiction: compte tenu d'une nouvelle mesure, vous souhaitez utiliser un ensemble de données existant pour créer un modèle qui choisit de manière fiable l'identificateur correct dans un ensemble de résultats.


Inférence: vous voulez savoir quel est l’effet de l’âge, de la classe de passagers et du sexe sur la survie à la catastrophe du Titanic. Vous pouvez créer une régression logistique et en déduire l’effet de chaque caractéristique de passager sur les taux de survie.

Prédiction: compte tenu des informations sur un passager du Titanic, vous souhaitez choisir parmi{vies,meurt}et soyez correct aussi souvent que possible. (Voir le compromis biais-variance pour la prévision dans le cas où vous vous demandez comment être correct aussi souvent que possible.)


La prédiction ne consiste pas à établir la relation la plus précise possible entre l’entrée et la sortie, elle tient à placer les nouvelles observations dans la bonne classe aussi souvent que possible.

L'exemple concret se résume donc grossièrement à la différence suivante: à partir d'un ensemble de données de passagers pour un seul passager, l'approche par inférence vous donne une probabilité de survie, le classificateur vous permet de choisir entre la vie et la mort.

Le réglage des classificateurs est un sujet très intéressant et crucial, tout comme l’interprétation correcte des valeurs p et des intervalles de confiance.


1
Bonne réponse. Mais lorsque certaines personnes entendent le mot "inférence", elles pensent "inférence causale". Vous voudrez peut-être aussi dire quelque chose à ce sujet, même si (ou peut-être surtout parce que) l'ISLR n'est pas centré sur cela.
generic_user

1
Je pense que dans le monde de l'apprentissage en profondeur, l'inférence est à peu près la même chose que la prédiction, par exemple. blogs.nvidia.com/blog/2016/08/22/…
user1893354

1
Cela me semble une très bonne réponse.
gung - Réintégrer Monica

3
Je crois que cette réponse est fausse, en particulier "l'approche par inférence vous donne une probabilité de survie, le classificateur vous donne le choix entre des vies ou des morts", même plus précisément la première partie. Le calcul de la probabilité de survie d'un passager est une prévision, notamment probabiliste. Dans le cas continu, il s'agirait d'une prévision de densité. Nous pouvons alors seuiller cette probabilité prédite pour obtenir une classification difficile , oui. ...
S. Kolassa - Rétablir Monica le

3
... Alors que la prédiction consiste à prédire les résultats , l’inférence consiste à comprendre la relation entre les entrées et le résultat: quelle entrée a une telle relation et comment pouvons-nous distinguer une "vraie" relation de la covariation aléatoire (où p entrez)? Quelqu'un peut-il m'expliquer où je me trompe?
S. Kolassa - Réintégrer Monica le

12

Généralement, lorsque nous effectuons une analyse de données, nous imaginons qu’il existe une sorte de "processus de génération de données" qui donne naissance aux données, et l’inférence fait référence à l’apprentissage de la structure de ce processus, tandis que la prévision permet de prévoir réellement les données qui en proviennent. . Souvent, les deux vont ensemble, mais pas toujours.

Un exemple où les deux vont de pair serait le modèle de régression linéaire simple

Yje=β0+β1Xje+εje.

Inférence dans ce cas signifierait estimer les paramètres du modèle β0 et β1et nos prédictions seraient simplement calculées à partir de nos estimations de ces paramètres. Cependant, il existe d'autres types de modèles pour lesquels on peut faire des prévisions raisonnables, mais le modèle ne conduit pas nécessairement à une compréhension significative de ce qui se passe dans les coulisses. Certains exemples de ce type de modèles seraient des méthodes d'ensemble complexes qui peuvent conduire à de bonnes prédictions mais sont parfois difficiles, voire impossibles à comprendre.


3
"Mais le modèle ne conduit pas nécessairement à des informations significatives sur ce qui se passe dans les coulisses." Le terme " boîte noire " vient à l'esprit. :)
Alexis

ou réseaux de neurones multicouches
Shihab Shahriar Khan

"Mais il existe d'autres types de modèles où l'on est capable de faire des prévisions sensées, mais le modèle ne donne pas nécessairement une idée significative de ce qui se passe dans les coulisses", qui s'en soucie? Le problème d'inférence, tel que vous l'avez défini, reste celui de la détermination des paramètres du modèle. Je ne comprends pas pourquoi vous commencez cette phrase par "Mais" et pourquoi vous avez même écrit cette phrase, en ce qui concerne votre définition de l'inférence et de la prédiction.
Nbro

1
L'utilisation de "mais" est due au fait que les descriptions des modèles précédent et suivant sont correctes. Cependant, le modèle suivant se distingue de la nature du premier d'une manière que vous n'auriez pas attendue tant que vous n'avez pas compris la distinction entre prédiction et inférence. cela est illustré. Je connais déjà bien la distinction, néanmoins, je trouve cet exemple perspicace et utile. +1
Jouez - Rétablissez Monica

11

À la page 20 du livre, les auteurs fournissent un bel exemple qui m'a fait comprendre la différence.

Voici le paragraphe du livre: Une introduction à l'apprentissage statistique

"Par exemple , dans un contexte immobilier, on peut rechercher une relation entre la valeur d'une maison et des intrants tels que le taux de criminalité, le zonage, la distance d'une rivière, la qualité de l'air, les écoles, le niveau de revenu de la communauté, la taille des maisons, etc. Dans ce cas, on pourrait s’intéresser à la manière dont les variables d’entrée individuelles affectent les prix - c’est-à-dire combien une maison rapportera-t-elle de plus si elle a une vue sur la rivière? C’est un problème d’inférence . pour prédire la valeur d'une maison compte tenu de ses caractéristiques: cette maison est-elle sous-évaluée ou surévaluée? C'est un problème de prédiction . "


5

La prévision utilise l’estimation de f pour prévoir l’avenir. Supposons que vous observiez une variableyt, c’est peut-être le revenu du magasin. Vous souhaitez établir des plans financiers pour votre entreprise et devez prévoir les revenus pour le prochain trimestre. Vous soupçonnez que le revenu dépend du revenu de la population de ce trimestreX1,t et le temps de l'année X2,t. Donc, vous dites que c'est une fonction:

yt=F(X1,t-1,X2,t-1)+εt

Maintenant, si vous obtenez les données sur le revenu, disons des séries de revenus disponibles personnels de BEA, et construisez la variable de période de l'année, vous pouvez estimer la fonction f , puis insérez les dernières valeurs du revenu de la population et la période de l'année dans cette une fonction. Cela donnera la prévision pour le prochain trimestre du chiffre d'affaires du magasin.

Inference utilise la fonction estimée f pour étudier l’impact des facteurs sur le résultat et pour effectuer d’autres tâches de cette nature. Dans mon exemple précédent, vous pourriez être intéressé par la mesure dans laquelle la saison détermine les revenus du magasin. Donc, vous pouvez regarder la dérivée partielleF/X2t- sensibilité à la saison. Si f était en fait un modèle linéaire, alors ce serait un coefficient de régression de la deuxième variableβ2X2,t-1.

La prédiction et l'inférence peuvent utiliser la même procédure d'estimation pour déterminer f , mais elles ont des exigences différentes pour cette procédure et les données entrantes. Un cas bien connu est ce qu'on appelle la colinéarité , alors que vos variables d'entrée sont fortement corrélées les unes aux autres. Par exemple, vous mesurez le poids, la taille et la circonférence du ventre de personnes obèses. Il est probable que ces variables soient fortement corrélées, mais pas nécessairement de manière linéaire. Il en résulte que la colinéarité peut être un problème grave de déduction , mais simplement une gêne pour la prédiction . La raison en est que lorsque les prédicteursXsont corrélés, il est plus difficile de séparer l’impact d’un prédicteur de celui d’autres prédicteurs. Pour la prévision, cela n'a pas d'importance, tout ce qui vous importe est la qualité de la prévision.


3

Imaginez, vous êtes un médecin dans une unité de soins intensifs. Vous avez un patient qui a une forte fièvre, un nombre donné de cellules sanguines, un poids corporel donné et une centaine de données différentes et que vous voulez prédire s’il va survivre. Si oui, il va cacher cette histoire sur son autre enfant à sa femme, sinon, il est important pour lui de la révéler, pendant qu'il le peut.

Le médecin peut faire cette prédiction en se basant sur les données d'anciens patients de son unité. Sur la base de ses connaissances en logiciels, il peut prédire en utilisant soit une régression linéaire généralisée (glm), soit un réseau de neurones (nn).

1. Modèle linéaire généralisé

Il y a beaucoup trop de paramètres corrélés pour la maladie alors pour obtenir un résultat, le médecin devra émettre des hypothèses (linéarité, etc.) et décider quels paramètres sont susceptibles d'avoir une influence. Le médecin le récompensera par un test t significatif pour chacun de ses paramètres afin qu'il puisse rassembler des preuves solides, que le sexe et la fièvre ont une influence significative, mais pas nécessairement le poids corporel.

2. Réseau de neurones

Le réseau neuronal avalera et digérera toutes les informations présentes dans l'échantillon d'anciens patients. Peu importe si les prédicteurs sont corrélés et si beaucoup d'influences ne sont pas révélées, l'influence du poids semble ne jouer un rôle important que dans l'échantillon concerné ou en général (du moins pas au niveau d'expertise que le médecin a à offrir). Il va juste calculer un résultat.

Ce qui est mieux

Quelle méthode choisir dépend de l'angle sous lequel vous envisagez le problème: En tant que patient, je préférerais le réseau neuronal qui utilise toutes les données disponibles pour mieux deviner ce qui va m'arriver sans des hypothèses fortes et manifestement erronées telles que la linéarité. En tant que médecin souhaitant présenter des données dans un journal, il a besoin de valeurs prédictives. La médecine est très conservatrice: ils vont demander des valeurs de p. Le médecin veut donc signaler que, dans une telle situation, le sexe a une influence notable. Pour le patient, cela n'a pas d'importance, il vous suffit d'utiliser l'influence que l'échantillon suggère comme étant le plus probable.

Dans cet exemple, le patient veut une prédiction, le côté scientifique du médecin veut une inférence. Généralement, lorsque vous voulez comprendre un système, la déduction est bonne. Si vous devez prendre une décision où vous ne pouvez pas comprendre le système, la prévision devra suffire.


1
"En tant que patient, je préférerais le réseau neuronal ..." Vous semblez ignorer le fait qu'il peut être extrêmement difficile d'obtenir de grandes quantités de données en science clinique. Des ensembles de données ne comprenant que plusieurs observations par groupe ne sont pas rares pour des raisons de sécurité, de confidentialité et d'éthique. Si vous pouvez faire des hypothèses défendables sur le processus de génération de données, vous pouvez utiliser les données de manière beaucoup plus efficace.
Frans Rodenburg

Ce scénario était supposé être un scénario hypothétique dans lequel on peut facilement comprendre pourquoi un problème apparemment identique peut susciter des questions d'inférence et des problèmes de prédiction, et pourquoi ils ne sont pas identiques. Je ne proposais pas de méthodes permettant de prédire réellement les chances de survie des patients et, oui, je sais très bien à quel point il peut être difficile d'obtenir des données cliniques fiables de taille notable. À mon humble avis, de bonnes hypothèses et une bonne connaissance du processus de génération de données faciliteront la prédiction ainsi que l’inférence, par conséquent ne différencieront pas beaucoup les deux.
Bernhard

1

Vous n'êtes pas seul ici. Après avoir lu les réponses, je ne suis plus confus - non pas parce que je comprends la différence, mais parce que je comprends que cela est dans l’œil du spectateur et qu’il est induit verbalement. Je suis persuadé que ces deux termes sont des définitions politiques plutôt que scientifiques. Prenons par exemple l’explication du livre, celle que les collèges ont essayé d’utiliser comme bonne: "que vaudra une maison de plus si elle a vue sur la rivière? C’est un problème d’inférence." De mon point de vue, il s'agit absolument d'un problème de prédiction. Vous êtes propriétaire d'une entreprise de construction civile et vous souhaitez choisir le meilleur terrain pour la construction du prochain ensemble de maisons. Vous devez choisir entre deux emplacements dans la même ville, l’un près de la rivière, l’autre près de la gare. Vous voulez prédireles prix pour les deux endroits. Ou vous voulez en déduire . Vous allez appliquer les méthodes exactes de statistiques, mais vous nommez le processus. :)


L'idée qu'une vue de la rivière nécessitera un certain prix est une interprétation causale . La prédiction est agnostique quant à la causalité: je peux prédire les effets des causes, les causes des effets ou un effet d'un autre effet avec des causes similaires. Considérez mon ami Billy, qui a 5'10 "et qui a un jumeau identique, Bobby, que je n’ai jamais rencontré. Néanmoins, je peux prédire que Bobby sera 5'10", mais si je fais grandir Billy en lui donnant des chaussures d’ascenseur, Je ne peux pas nécessairement prédire que Billy sera également plus grand.
gung - Réintégrer Monica

L'exemple que vous citez est simplement un mauvais exemple, c'est pourquoi il est déroutant. La différence entre inférence et prédicton est bien plus que "politique".
Richard Hardy

1

Il existe de bonnes recherches qui montrent que le fait de savoir si les emprunteurs protègent leurs sols des rayures causées par les pattes des meubles est un prédicteur important du remboursement de leurs emprunts par les emprunteurs. Cette variable "ressentie" sera une aide distincte à un modèle prédictif dans lequel le résultat est le remboursement par rapport au défaut. Toutefois, si les prêteurs souhaitent obtenir un effet de levier plus important sur ce résultat, ils penseront qu’ils peuvent le faire en distribuant le plus largement possible.

"Quelle est la probabilité de remboursement de cet emprunteur?" est un problème de prédiction; "Comment puis-je influencer le résultat?" est un problème d'inférence causale.


-1

y = f (x) alors

prédiction (quelle est la valeur de Y avec une valeur donnée de x: si une valeur spécifique de x quelle pourrait être la valeur de Y

inférence (comment y change avec le changement de x): quel pourrait être l'effet sur Y si x change

Exemple de prédiction: supposons que y représente le salaire d’une personne, puis si nous fournissons des entrées telles que des années d’expérience, un degré de variable d’entrée, notre fonction prédit le salaire de l’employé.

Exemple d’inférence: supposons que le coût de la vie change alors quel est le changement de salaire


Je ne vois pas pourquoi cette réponse mérite deux votes négatifs.
gung - Rétablir Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.