La raison pour laquelle les graphes sont universellement utilisés pour introduire une régression simple - une réponse prédite par un seul prédicteur - est qu’ils facilitent la compréhension.
Cependant, je pense pouvoir donner une idée de la saveur qui pourrait aider à comprendre ce qui se passe. Dans ce document, je vais surtout essayer de transmettre une partie de la compréhension qu’ils apportent, ce qui peut aider avec certains des autres aspects que vous rencontrerez généralement en lisant sur la régression. Donc, cette réponse portera principalement sur un aspect particulier de votre message.
Imaginez que vous êtes assis devant une grande table rectangulaire, telle qu'un bureau ordinaire, l'une de l'autre d'une longueur de bras complète (peut-être 1,8 mètre), sur peut-être la moitié de la largeur.
Vous êtes assis devant la table dans la position habituelle, au milieu d'un long côté. Sur cette table, un grand nombre de clous (avec des têtes assez lisses) ont été martelés dans la surface supérieure de sorte que chacun se pique un peu (assez pour sentir où ils sont, et assez pour leur attacher une ficelle ou pour attacher un élastique ).
Ces clous se trouvent à différentes distances de votre bord du bureau, de telle sorte que, vers une extrémité (par exemple, l'extrémité gauche), ils sont généralement plus proches de votre bord du bureau et que, lorsque vous vous déplacez vers l'autre extrémité, les têtes de clou ont tendance à être plus loin de votre bord.
En outre, imaginez qu’il serait utile d’avoir une idée de la distance moyenne entre les ongles et votre bord, quelle que soit leur position.
Choisissez un endroit le long de votre bureau et placez votre main à cet endroit, puis avancez directement sur la table en tirant doucement votre main vers vous, puis éloignez-vous de nouveau en déplaçant votre main d'avant en arrière sur les têtes de clou. Vous rencontrez plusieurs dizaines de bosses sur ces ongles - celles qui se trouvent dans cette étroite largeur (car elles s’éloignent directement de votre bord, à une distance constante de l’extrémité gauche du bureau), une section ou une bande d’environ dix centimètres de large. .
L'idée est de calculer la distance moyenne entre un clou et le bord du bureau dans cette petite section. Intuitivement, nous nous heurtons au milieu des bosses, mais si nous mesurions chaque distance d'un clou dans cette partie du pupitre très étendue, nous pourrions facilement calculer ces moyennes.
Par exemple, nous pourrions utiliser un carré en T dont la tête glisse le long du bord du bureau et dont la tige se dirige vers l’autre côté du bureau, mais juste au-dessus du bureau pour ne pas cogner les ongles en glissant vers la gauche. ou à droite - en passant un clou donné, nous pouvons obtenir sa distance le long de la tige du carré en T.
Nous répétons donc cet exercice consistant à trouver tous les clous dans une bande de la largeur de la main menant vers nous et loin de nous et à trouver leur distance moyenne. Peut-être que nous divisons le bureau en bandes de la largeur de la main le long de notre bord (afin que chaque ongle se trouve dans exactement une bande).
Maintenant, imaginez qu'il y ait 21 telles bandes, la première à gauche et la dernière à droite. Les moyens s’éloignent de notre bureau à mesure que nous progressons à travers les bandes.
Ces moyennes forment un simple estimateur par régression non paramétrique de l'espérance de y (notre distance) compte tenu de x (distance le long de notre bord depuis l'extrémité gauche), c'est-à-dire E (y | x). Plus précisément, il s’agit d’un estimateur par régression non paramétrique, également appelé régressogramme.
Si ces moyennes de la bande augmentaient régulièrement - c’est-à-dire que la moyenne augmentait généralement du même montant que nous parcourions d’une bande à l’autre - nous pourrions alors mieux estimer notre fonction de régression en supposant que la valeur attendue de y était linéaire. fonction de x - c’est-à-dire que la valeur attendue de y étant donnée x était une constante plus un multiple de x. Ici, la constante représente où les ongles tendent à être quand nous avons x est égal à zéro (souvent nous pourrions le placer à l'extrême gauche mais ce n'est pas obligatoirement), et le multiple particulier de x étant à quelle vitesse en moyenne la moyenne change à mesure que nous nous déplaçons d'un centimètre (par exemple) vers la droite.
Mais comment trouver une telle fonction linéaire?
Imaginez que nous passions un élastique sur chaque tête de clou et que nous les fixions à un long bâton mince qui se trouve juste au-dessus du bureau, au-dessus des ongles, de sorte qu’il se trouve quelque part près du "milieu" de chaque pour.
Nous fixons les bandes de manière à ce qu’elles ne s’étirent que dans la direction qui nous sépare (ni à gauche ni à droite). Laissées à elles-mêmes, elles tireraient de manière à orienter la direction de l’étirement à angle droit avec le bâton, mais ici nous l’empêchons, de sorte que leur direction d’étirement ne reste que dans les directions qui s’éloignent de notre bureau. Maintenant, nous laissons le bâton reposer lorsque les bandes le tirent vers chaque clou, avec des clous plus distants (avec des élastiques plus étirés) tirant d'autant plus fort que les clous près du bâton.
Ensuite, le résultat combiné de toutes les bandes qui tirent sur le bâton serait (idéalement, au moins) de tirer sur le bâton afin de minimiser la somme des longueurs au carré des bandes de caoutchouc étirées; dans cette direction directement à travers la table, la distance entre notre bord de la table et le bâton à une position x donnée serait notre estimation de la valeur attendue de y étant donné x.
Il s’agit essentiellement d’une estimation de régression linéaire.
Maintenant, imaginez qu'au lieu de clous, nous ayons beaucoup de fruits (comme de petites pommes) suspendus à un grand arbre et nous souhaitons trouver la distance moyenne des fruits au-dessus du sol, qui varie en fonction de la position sur le sol. Imaginez que dans ce cas, les hauteurs au-dessus du sol deviennent plus grandes au fur et à mesure que nous avançons et légèrement plus grandes au fur et à mesure que nous avançons à droite, toujours de manière régulière. Ainsi, chaque pas en avant modifie généralement la hauteur moyenne du même montant, et chaque pas vers le bas. right changera également la moyenne d'un montant à peu près constant (mais cette variation de la moyenne pas à pas est différente de la quantité de changement obtenue par la suite).
Si nous minimisons la somme des distances verticales au carré des fruits sur une mince feuille plate (peut-être une mince feuille de plastique très rigide) afin de déterminer comment la hauteur moyenne change lorsque nous avançons ou que nous marchons à droite, ce serait: une régression linéaire avec deux prédicteurs - une régression multiple.
Ce sont les deux seuls cas que les graphes peuvent aider à comprendre (ils peuvent montrer rapidement ce que je viens de décrire en détail, mais espérons que vous avez une base sur laquelle conceptualiser les mêmes idées). Au-delà de ces deux cas les plus simples, il ne reste que les mathématiques.
Prenons maintenant votre exemple de prix de la maison; vous pouvez représenter la superficie de chaque maison par une distance le long de votre bord du bureau - la plus grande taille de maison étant une position proche du bord droit, chaque autre taille de maison sera une position plus à gauche où un certain nombre de centimètres représentera une partie nombre de mètres carrés. Maintenant, la distance représente le prix de vente. Représentez la maison la plus chère comme une distance particulière près du bord le plus éloigné du bureau (comme toujours, le bord le plus éloigné de votre chaise), et chaque centimètre déplacé représente un certain nombre de rials.
Pour le présent, imaginons que nous ayons choisi la représentation de sorte que le bord gauche du bureau corresponde à une surface de maison nulle et le bord proche à un prix de maison égal à 0. Nous avons ensuite placé un clou pour chaque maison.
Nous n'aurons probablement pas de clous près de l'extrémité gauche de notre bord (ils pourraient être principalement orientés vers la droite et loin de nous) car ce n'est pas nécessairement un bon choix d'échelle, mais votre choix d'un modèle sans interception le fait. une meilleure façon de discuter.
Maintenant, dans votre modèle, vous forcez le manche à passer à travers une boucle de ficelle située dans le coin gauche du bord inférieur du bureau, ce qui force le modèle ajusté à avoir un prix égal à zéro pour la zone zéro, ce qui peut sembler naturel. certaines composantes du prix assez constantes qui ont affecté chaque vente. Dans ce cas, il serait logique que l'interception soit différente de zéro.
Dans tous les cas, avec l'ajout de cette boucle, le même exercice d'élastique que précédemment retrouvera notre estimation des moindres carrés de la ligne.