Peut-on effectuer une régression linéaire simple sans utiliser de graphiques et d'algèbre linéaire?


47

Je suis complètement aveugle et je viens de la programmation.

Ce que j'essaie de faire, c'est d'apprendre à apprendre par la machine. Pour ce faire, je dois d'abord apprendre la régression linéaire. Toutes les explications que je trouve sur Internet sur ce sujet tracent les données en premier. Je cherche une explication pratique de la régression linéaire qui ne dépend pas des graphiques et des graphiques.

Voici ma compréhension de l'objectif de la régression linéaire simple:

La régression linéaire simple consiste à essayer de trouver la formule qui, une fois donnée X, vous fournirait l’estimation la plus proche Y.

Donc, si j'ai bien compris, il faut comparer le prédicteur (par exemple, la superficie d'une maison en pieds carrés) avec la variable indépendante (le prix). Dans mon exemple, vous pouvez probablement créer un moyen non visuel d'obtenir la meilleure formule pour calculer le prix d'une maison à partir de sa superficie. Par exemple, vous obtiendrez peut-être la superficie et le prix de 1 000 maisons dans un quartier et diviseriez le prix par rapport à la région? Le résultat (du moins en Iran, où je vis) aurait une variance très négligeable. Donc, vous obtiendrez probablement quelque chose comme ça:

Price = 2333 Rials * Area of the house

Bien sûr, il vous faudrait ensuite parcourir les 1 000 maisons de votre ensemble de données, mettre la surface dans la formule ci-dessus, comparer l'estimation au prix réel, comparer les résultats (je suppose pour éviter que les écarts ne s'annulent) puis obtenez un numéro, puis continuez à jouer avec 2333pour diminuer les erreurs.

Bien sûr, il s’agit de l’option de la force brute où il faudra probablement beaucoup de temps pour calculer les erreurs et parvenir à la meilleure option, mais vous voyez ce que je dis? Je n'ai rien dit sur un graphique, une ligne, des points sur un graphique, ni sur la meilleure façon d'adapter une ligne à vos données existantes.

Alors, pourquoi auriez-vous besoin d'un nuage de points et d'une algèbre linéaire pour cela? N'y a-t-il pas un moyen non visuel?

D'abord, ai-je raison dans mes hypothèses? Sinon, j'aimerais être corrigé. Que je sois ou non, cependant, y a-t-il un moyen de trouver la formule sans jouer avec l'algèbre linéaire?

J'apprécierais vraiment si je pouvais avoir un exemple avec l'explication, afin que je puisse le faire avec le texte pour tester ma compréhension.


2
Mais avez-vous une imagination spatiale capable de prendre en charge la vision? Si oui, je suppose qu'un diagramme de dispersion peut être imaginé d'une certaine manière. Je doute que l'essentiel de la régression puisse être capturé par la pensée propositionnelle (telle que verbale) uniquement.
ttnphns

3
Quel est ton parcours en maths? La page Wikipedia appelée Régression linéaire simple est principalement composée de texte et contient, à mon avis, une description assez claire dans le premier paragraphe. Comment cet article se compare-t-il au niveau de détail que vous recherchez?
shadowtalker

3
Je vais continuer à y penser, voir si je peux monter, mais tout de suite, pensez à la régression comme une solution à une équation sans solution. Tous vos points de données seront prédits de manière incorrecte par votre régresseur (la zone de la maison). Vous recherchez une équation qui rend vos erreurs aussi tolérables que possible.
Antoni Parellada

8
excellente question, nous devons réfléchir davantage à expliquer nos concepts aux personnes handicapées
Aksakal

4
Vous n'avez pas besoin d'utiliser un complot. En effet, pour une régression linéaire multiple (régression avec de nombreux prédicteurs), vous ne pouvez pas tracer un espace dimensionnel . Cependant, l'algèbre linéaire fonctionne toujours. Toutes les formules d’algèbre linéaire impliquées dans la régression linéaire peuvent être réduites à des opérations sur des nombres scalaires simples. Vous ne voudriez tout simplement pas le faire de cette façon à la main si vous accordez de l'importance à votre santé mentale. p+1
conjectures

Réponses:


17

Oui votre sur elle. Vous devez continuer à jouer avec le 2333 jusqu'à ce que vous trouviez celui qui minimise l'erreur. Mais il existe un moyen mathématique pour trouver le "bon". Appelons ce numéro . , la somme des erreurs au carré (SSE) est une fonction de car pour chaque choix de possible de calculer le montant de chaque estimation, de la mettre au carré et de les additionner.E β ββEββ

Qu'est-ce que minimise la somme totale des erreurs au carré? Ceci est juste un problème de calcul. Prenez la dérivée de par et définissez-la égale à zéro. Cela donne une équation pour . Vérifiez que la deuxième dérivée est positive pour savoir que c'est un minimum. Ainsi, vous obtenez une équation pour qui minimise l'erreur.E β β ββEβββ

Si vous le dérivez de cette façon, vous obtiendrez somme de . Si vous écrivez la forme algébrique linéaire de l'estimation, vous verrez que c'est la même chose.β

Edit: Voici un lien vers des notes avec ce type de dérivation. Les calculs deviennent un peu compliqués, mais au fond, il ne s'agit que d'un problème de calcul.


OMG. Finalement! Un moyen non linéaire-algèbre de calculer cela. Les concepts dont vous parlez dans votre réponse sont au-dessus de ma tête, mais je vais certainement me pencher sur les dérivés pour mieux comprendre cette ligne de pensée.
Parham Doustdar

1
J'ai lié à quelques notes qui l'expliquent à un niveau assez élémentaire. Je pense que toute réponse nécessitera un calcul, car la façon de résoudre des problèmes tels que "trouver le minimum de " consiste à prendre un dérivé et à le fixer à zéro. Intuitivement, cela signifie simplement que le minimum (ou maximum) d'une colline sera l'endroit où la colline est plate (puisque la pente est la plus élevée le long du flanc de la colline!). Dérivée = pente. Donc, dans les zones en changement, la commence à causer peu de changement dans vous êtes presque au minimum (ou au maximum. Vous devez vous assurer que ce n'est pas un maximum!). β EE(β)βE
Chris Rackauckas

4
Cette idée vous amène ensuite à l'apprentissage automatique. L'une des méthodes de base de l'apprentissage automatique est le gradient décent. Cela se traduit essentiellement par "suivre la pente". si vous continuez à laisser la balle rouler dans la direction où la colline est la plus raide, vous frapperez un minimum. Donc, la méthode du gradient décent consiste précisément à faire ceci: trouver quelle façon de changer provoque l’erreur de diminuer le plus et aller de cette façon! β
Chris Rackauckas

2
Pour la régression des moindres carrés, vous n'avez pas besoin de faire un gradient correct car vous pouvez résoudre une équation qui constitue la réponse, mais cela vous donne un bon moyen de comprendre ce qu'est l'apprentissage automatique. Il s’agit de choisir un moyen de mesurer l’erreur, puis de trouver un moyen de minimiser l’équation de l’erreur. Le résultat est la "meilleure" équation d'estimation apprise via les données. J'espère que cela vous aidera dans votre apprentissage de la machine!
Chris Rackauckas

10

Votre compréhension est proche, mais nécessite une extension: La régression linéaire simple essaie de trouver la formule qui, une fois donnée X, vous fournirait l’estimation la plus proche de Y basée sur une relation linéaire entre X et Y .

Votre exemple de prix de l'immobilier, une fois étendu un peu, montre pourquoi vous vous retrouvez avec des parcelles de dispersion, etc. Premièrement, diviser le prix par la superficie ne fonctionne pas dans d'autres cas, comme le prix des terrains dans ma ville natale, où la réglementation en matière de construction signifie que le simple fait de posséder un terrain sur lequel vous pouvez construire une maison a une valeur élevée. Les prix des terrains ne sont donc pas simplement proportionnels à la superficie. Chaque augmentation de surface de parcelle peut donner la même augmentation de valeur de parcelle, mais si vous descendez jusqu'à une parcelle (mythique) de 0, il y aura toujours un prix apparent associé qui représente la valeur de posséder simplement une parcelle de terrain. c'est approuvé pour la construction.

C'est toujours une relation linéaire entre surface et valeur, mais il y a une interception dans la relation, représentant la valeur de la possession d'une parcelle. Ce qui en fait néanmoins une relation linéaire , c'est que le changement de valeur par unité de changement de surface, de pente ou de coefficient de régression, est toujours le même quelles que soient les magnitudes de la surface ou de la valeur.

Supposons donc que vous connaissez déjà à la fois l'interception et la pente qui relient les zones de parcelle à la valeur et comparez les valeurs de cette relation linéaire aux valeurs réelles représentées par les ventes récentes. Vous constaterez que les valeurs prédites et réelles coïncident rarement, voire jamais. Ces divergences représentent les erreurs dans votre modèle et entraînent une dispersion des valeurs autour de la relation prédite. Vous obtenez un diagramme de dispersion des points regroupés autour de votre relation linéaire prédite entre surface et valeur.

Dans la plupart des exemples pratiques, vous ne connaissez pas encore l'interception et la pente, vous devez donc essayer de les estimer à partir des données. C'est ce que la régression linéaire tente de faire.

Vous aurez peut-être intérêt à penser à la régression linéaire et à la modélisation associée du point de vue de l' estimation du maximum de vraisemblance , qui consiste à rechercher les valeurs de paramètre particulières de votre modèle qui rendent les données les plus probables. Cela ressemble à l'approche "force brute" que vous proposez dans votre question, mais avec une mesure quelque peu différente de ce que vous essayez d'optimiser. Avec les méthodes informatiques modernes et la conception intelligente du modèle de recherche, cela peut être fait assez rapidement.

L'estimation du maximum de vraisemblance peut être conceptualisée de manière à ne nécessiter aucun graphique, et est similaire à la façon dont vous semblez déjà penser. Dans le cas de la régression linéaire, la régression des moindres carrés standard et le maximum de vraisemblance fournissent les mêmes estimations d'intercept et de pente.

Penser en termes de maximum de vraisemblance a l’avantage supplémentaire de s’étendre mieux à d’autres situations où il n’ya pas de relations strictement linéaires. Un bon exemple est la régression logistique dans laquelle vous essayez d'estimer la probabilité qu'un événement se produise sur la base de variables de prédicteur. Cela peut être accompli avec le maximum de vraisemblance, mais contrairement à la régression linéaire standard, il n’existe pas d’équation simple qui produit l’interception et la pente dans la régression logistique.


1
Je pensais que '' linéaire '' dans '' régression linéaire '' signifiait '' linéaire dans les paramètres '', donc vous pouvez avoir comme variable indépendante, mais le coefficient de chaque variable indépendante doit apparaître de manière linéaire ? x2

@fcop vous avez raison. Je partais de l'exemple fourni par le PO, qui établissait une proportionnalité entre les valeurs et les zones. J'ai tendance à penser aux valeurs transformées des variables de prédicteur d'origine en tant que variables indépendantes réelles dans la régression lorsque des transformations telles que des pouvoirs ou des journaux sont utilisées. Je pense que cela finit par être essentiellement une différence de terminologie dans la pratique, bien qu'il existe des différences dans les modèles d'erreur implicite.
EdM

De toute façon, je vois ce que vous dites, c’était une bonne réponse (+1)

7

Tout d'abord, mes compliments. Il est difficile pour tout le monde de se débattre avec les statistiques (je suis un médecin, alors vous pouvez deviner à quel point c'est difficile pour moi) ...

Je peux proposer non pas une explication visuelle à la régression linéaire , mais quelque chose de très proche: une explication tactile à la régression linéaire .

Imaginez que vous entrez dans une pièce par une porte. La pièce est plus ou moins carrée et la porte se trouve dans le coin inférieur gauche. Vous souhaitez accéder à la pièce voisine, dont la porte devrait se trouver plus ou moins dans le coin supérieur droit. Imaginez que vous ne puissiez pas dire exactement où se trouve la porte d'à côté (jamais!), Mais il y a des gens dispersés dans la pièce et ils peuvent vous dire laquelle doit aller. Ils ne peuvent pas voir non plus, mais ils peuvent vous dire ce qui se trouve près d'eux. Le dernier chemin que vous emprunterez pour atteindre la porte suivante, guidé par ce peuple, est analogue à une ligne de régression, qui minimise la distance qui les sépare et vous conduit vers la porte, tout près du bon chemin.


1
(+1) J'aime beaucoup votre exemple et il est amusant de voir que, par pure coïncidence, nous avons utilisé une illustration très similaire pour résoudre ce problème!
Tim

"La pièce a plus ou moins une forme carrée" - qu'est-ce qui est carré pour les aveugles? Avec cette phrase, nous sommes revenus à l’endroit où nous devions commencer.
Aksakal

4
Je ne suis pas d'accord Laissez-les marcher 10 pieds dans un sens, puis laissez-les tourner à 90 ° (comme un bras) et laissez-les marcher à nouveau 10 pieds. C'est un carré si vous ne pouvez pas voir correctement.
Joe_74

@ GiuseppeBiondi-Zoccai, si je construis un modèle de pression dans la chambre sur la température, pourquoi devrais-je créer des carrés, des lignes et d'autres concepts spatiaux? C'est sûrement pratique si vous n'êtes pas aveugle, mais pour un aveugle, ces analogies spatiales n'apportent rien à la table du problème à résoudre, elles ne font que compliquer l'exposition
Aksakal

2
Encore une fois, je suis poliment en désaccord… mon hypothèse a toujours été que les personnes aveugles ont particulièrement développé des compétences spatiales tactiles. Quoi qu'il en soit, tout exemple qui fonctionne est bien, et plus on est de fous.
Joe_74

3

Andrew Gelman et David K. Park (2012) ont fourni un bel exemple pouvant aider à répondre à votre question. Bâton de Let à votre exemple de prédire le prix de la maison donné la zone de . Pour cela, nous utilisons un modèle de régression linéaire simpleXYX

Y=β0+β1X+ε

Par souci de simplicité, oublions l'interception , vous pouvez consulter ce fil pour savoir en quoi c'est important . Ces données peuvent être visualisées sur un diagramme de dispersion. Qu'est-ce qu'un nuage de points? Imaginez un espace bidimensionnel (ce pourrait être une pièce), les points de données sont "dispersés" autour de la place, où les valeurs des deux variables marquent leurs positions -axis et -axis. Ce que vous savez déjà, c'est que cela se traduit en quelque sorte par le modèle de régression linéaire. y xβ0yx

Pour que ce soit clair, simplifions encore plus cet exemple - comme Gelman et Park l'ont fait. La simplification proposée consiste à diviser leβ 1Xvariable, c’est-à-dire la superficie de la maison, en trois groupes: "petites", "moyennes" et "grandes" (elles décrivent comment prendre cette décision de manière optimale, mais cela est de moindre importance). Ensuite, calculez la taille moyenne de la "petite" maison et la taille moyenne de la "grande" maison. Calculez aussi le prix moyen de la "petite" maison et de la "grande". Maintenant, réduisez vos données à deux points - les centres des nuages ​​de points de données pour les petites et grandes maisons dispersées dans l’espace et supprimez tous les points de données sur les maisons "moyennes". Il ne vous reste que deux points dans un espace à deux dimensions. La ligne de régression est la ligne qui relie les points - vous pouvez la considérer comme une direction d'un point à un autre. β1

La même chose se produit lorsque nous avons plus de points, dispersés dans l’espace: la ligne de régression trouve son chemin en minimisant sa distance carrée à chaque point. La ligne traverse donc exactement le centre du nuage de points dispersés dans l’espace. Au lieu de connecter deux points, vous pouvez le considérer comme un nombre illimité de points centraux connectés.


Gelman, A. et Park, DK (2012). Fractionnement d'un prédicteur au quart supérieur ou au tiers et au quart inférieur ou au troisième. Le statisticien américain, 62 (4), 1-8.


3

La reponse courte est oui. Quelle ligne passe le mieux au milieu de tous les points qui composent la totalité ou juste la surface d'un avion ou d'un javelot? Dessine le; dans ta tête ou sur une photo. Vous recherchez et à cette ligne solitaire à partir de laquelle chaque point (d’intérêt, que vous en traçiez ou non) qui contribuerait à un écart total (entre points) inférieur à cette ligne. Si vous le faites à l'œil nu, implicitement selon le bon sens, vous vous rapprocherez (remarquablement bien) d'un résultat calculé mathématiquement. Pour cela, il existe des formules qui dérangent l'œil et peuvent ne pas avoir de sens commun. Dans des problèmes similaires formalisés d’ingénierie et de sciences, les questions dispersées appellent toujours une évaluation préliminaire à l’œil, mais dans ces arènes, on est censé proposer une probabilité "test" qu’une ligne soit la ligne. Il descend de là. cependant, vous essayez apparemment d'apprendre à une machine à mesurer (en fait) les limites et les limites de (a) une grande cour et de (b) du bétail dispersé à l'intérieur. Si vous donnez à votre machine ce qui correspond à une image (graphique, algébrique) du bien immobilier et des occupants, elle devrait être en mesure de déterminer (la ligne médiane divisant nettement la tache en deux, le décompte calculé en ligne), ce que vous voulez qu'il fasse. Tout manuel de statistiques décent (demandez aux enseignants ou aux professeurs d’en nommer plus d’un) devrait énoncer à la fois le point entier de la régression linéaire et la manière de le faire dans les cas les plus simples (allant des cas qui ne sont pas simples). Un certain nombre de bretzels plus tard, vous l'aurez compris. Si vous donnez à votre machine ce qui correspond à une image (graphique, algébrique) du bien immobilier et des occupants, elle devrait être en mesure de déterminer (la ligne médiane divisant parfaitement la tache en deux, le décompte calculé en ligne), ce que vous voulez qu'il fasse. Tout manuel de statistiques décent (demandez aux enseignants ou aux professeurs d'en nommer plus d'un) devrait énoncer à la fois le point entier de la régression linéaire et la manière de le faire dans les cas les plus simples (allant des cas qui ne sont pas simples). Un certain nombre de bretzels plus tard, vous l'aurez compris. Si vous donnez à votre machine ce qui correspond à une image (graphique, algébrique) du bien immobilier et des occupants, elle devrait être en mesure de déterminer (la ligne médiane divisant nettement la tache en deux, le décompte calculé en ligne), ce que vous voulez qu'il fasse. Tout manuel de statistiques décent (demandez aux enseignants ou aux professeurs d’en nommer plus d’un) devrait énoncer à la fois le point entier de la régression linéaire et la manière de le faire dans les cas les plus simples (allant des cas qui ne sont pas simples). Un certain nombre de bretzels plus tard, vous l'aurez compris. Tout manuel de statistiques décent (demandez aux enseignants ou aux professeurs d’en nommer plus d’un) devrait énoncer à la fois le point entier de la régression linéaire et la manière de le faire dans les cas les plus simples (allant des cas qui ne sont pas simples). Un certain nombre de bretzels plus tard, vous l'aurez compris. Tout manuel de statistiques décent (demandez aux enseignants ou aux professeurs d’en nommer plus d’un) devrait énoncer à la fois le point entier de la régression linéaire et la manière de le faire dans les cas les plus simples (allant des cas qui ne sont pas simples). Un certain nombre de bretzels plus tard, vous l'aurez compris.


Dans re: le commentaire de Silverfish dans mon article ci-dessus (il ne semble pas y avoir d'autre moyen simple d'ajouter un commentaire à ce commentaire), oui, le PO est aveugle, apprend à apprendre automatiquement et demande un aspect pratique sans parcelles ni graphiques, mais je suppose que il est capable de distinguer "visualisant" de "vision", visualise et a de véritables images dans sa tête, et a une idée de base de toutes sortes d'objets physiques dans le monde qui l'entoure (maisons, entre autres), afin qu'il puisse encore " dessiner "à la fois mathématiquement et autrement dans sa tête, et peut probablement mettre un bon semblant de 2D et de 3D sur le papier. Un large éventail de livres et autres textes est à présent disponible en braille physique ainsi qu'en voix électronique sur son propre ordinateur (forum, dictionnaires, etc.), et de nombreuses écoles pour aveugles ont des programmes assez complets. Au lieu d'un avion ou d'un javelot, un canapé ou une canne ne serait pas nécessairement plus approprié et des textes statistiques sont probablement disponibles. Il s'inquiète moins de savoir comment les machines pourraient apprendre à tracer et à représenter graphiquement ou à calculer la régression, puis à la manière dont les machines pourraient apprendre à faire quelque chose d'équivalent (et de plus fondamental) afin de saisir la régression (si une machine peut l'afficher, y réagir, suivre). éviter, ou quoi que ce soit). L’élément essentiel (vis-à-vis des aveugles et des étudiants voyants) consiste toujours à visualiser ce qui peut être non visuel (concept de linéarité plutôt qu’instance de ligne tirée, puisqu'avant Euclid et Pythagore), et à visualiser le but fondamental d’un type particulier de linéarité (la régression, dont le point fondamental convient le mieux au moindre écart, depuis le début en mathématiques et statistiques). La sortie de régression Fortran d'un imprimeur de lignes n'est guère "visuelle" jusqu'à ce qu'elle soit assimilée mentalement, mais même le point de régression de base est imaginaire (une ligne qui n'existe pas jusqu'à ce qu'elle soit créée dans un but précis).


2
Je ne comprends peut-être pas cette réponse, mais "dessine-la, dans ta tête ou sur une image", semble passer à côté de la question: la question initiale est posée par une personne complètement aveugle, qui cherche donc un non-sens. façon visuelle d’approcher la régression.
Silverfish

@Silverfish Response (trop long pour un commentaire) a été modifié dans la réponse ci

Merci. Je pensais que le vote négatif était un peu dur (ce n'était pas moi), mais certains choix de langue dans cette réponse étaient malheureux (par exemple, il y a plusieurs références à faire les choses "à l'œil"). Néanmoins, je peux comprendre pourquoi vous voudriez distinguer entre la perception visuelle et ce qui peut être visualisé à travers "l'oeil de l'esprit".
Silverfish

2
Je peux visualiser les choses dans mon esprit. C'est juste que je n'utilise pas les mêmes moyens de visualisation. Ce n'est pas une question de ne pas utiliser drawou visualize. Il suffit d'utiliser le concept pour obtenir la visualisation, plutôt que l'inverse. J'ai constaté que cela se produit dans beaucoup de domaines en mathématiques. Pour expliquer un sujet difficile, on utilise généralement des formes et des images plutôt que de relier le calcul à des concepts que l'apprenant connaîtrait dans la vie réelle.
Parham Doustdar

3

La raison pour laquelle les graphes sont universellement utilisés pour introduire une régression simple - une réponse prédite par un seul prédicteur - est qu’ils facilitent la compréhension.

Cependant, je pense pouvoir donner une idée de la saveur qui pourrait aider à comprendre ce qui se passe. Dans ce document, je vais surtout essayer de transmettre une partie de la compréhension qu’ils apportent, ce qui peut aider avec certains des autres aspects que vous rencontrerez généralement en lisant sur la régression. Donc, cette réponse portera principalement sur un aspect particulier de votre message.

Imaginez que vous êtes assis devant une grande table rectangulaire, telle qu'un bureau ordinaire, l'une de l'autre d'une longueur de bras complète (peut-être 1,8 mètre), sur peut-être la moitié de la largeur.

Vous êtes assis devant la table dans la position habituelle, au milieu d'un long côté. Sur cette table, un grand nombre de clous (avec des têtes assez lisses) ont été martelés dans la surface supérieure de sorte que chacun se pique un peu (assez pour sentir où ils sont, et assez pour leur attacher une ficelle ou pour attacher un élastique ).

Ces clous se trouvent à différentes distances de votre bord du bureau, de telle sorte que, vers une extrémité (par exemple, l'extrémité gauche), ils sont généralement plus proches de votre bord du bureau et que, lorsque vous vous déplacez vers l'autre extrémité, les têtes de clou ont tendance à être plus loin de votre bord.

En outre, imaginez qu’il serait utile d’avoir une idée de la distance moyenne entre les ongles et votre bord, quelle que soit leur position.

Choisissez un endroit le long de votre bureau et placez votre main à cet endroit, puis avancez directement sur la table en tirant doucement votre main vers vous, puis éloignez-vous de nouveau en déplaçant votre main d'avant en arrière sur les têtes de clou. Vous rencontrez plusieurs dizaines de bosses sur ces ongles - celles qui se trouvent dans cette étroite largeur (car elles s’éloignent directement de votre bord, à une distance constante de l’extrémité gauche du bureau), une section ou une bande d’environ dix centimètres de large. .

L'idée est de calculer la distance moyenne entre un clou et le bord du bureau dans cette petite section. Intuitivement, nous nous heurtons au milieu des bosses, mais si nous mesurions chaque distance d'un clou dans cette partie du pupitre très étendue, nous pourrions facilement calculer ces moyennes.

Par exemple, nous pourrions utiliser un carré en T dont la tête glisse le long du bord du bureau et dont la tige se dirige vers l’autre côté du bureau, mais juste au-dessus du bureau pour ne pas cogner les ongles en glissant vers la gauche. ou à droite - en passant un clou donné, nous pouvons obtenir sa distance le long de la tige du carré en T.

Nous répétons donc cet exercice consistant à trouver tous les clous dans une bande de la largeur de la main menant vers nous et loin de nous et à trouver leur distance moyenne. Peut-être que nous divisons le bureau en bandes de la largeur de la main le long de notre bord (afin que chaque ongle se trouve dans exactement une bande).

Maintenant, imaginez qu'il y ait 21 telles bandes, la première à gauche et la dernière à droite. Les moyens s’éloignent de notre bureau à mesure que nous progressons à travers les bandes.

Ces moyennes forment un simple estimateur par régression non paramétrique de l'espérance de y (notre distance) compte tenu de x (distance le long de notre bord depuis l'extrémité gauche), c'est-à-dire E (y | x). Plus précisément, il s’agit d’un estimateur par régression non paramétrique, également appelé régressogramme.

Si ces moyennes de la bande augmentaient régulièrement - c’est-à-dire que la moyenne augmentait généralement du même montant que nous parcourions d’une bande à l’autre - nous pourrions alors mieux estimer notre fonction de régression en supposant que la valeur attendue de y était linéaire. fonction de x - c’est-à-dire que la valeur attendue de y étant donnée x était une constante plus un multiple de x. Ici, la constante représente où les ongles tendent à être quand nous avons x est égal à zéro (souvent nous pourrions le placer à l'extrême gauche mais ce n'est pas obligatoirement), et le multiple particulier de x étant à quelle vitesse en moyenne la moyenne change à mesure que nous nous déplaçons d'un centimètre (par exemple) vers la droite.

Mais comment trouver une telle fonction linéaire?

Imaginez que nous passions un élastique sur chaque tête de clou et que nous les fixions à un long bâton mince qui se trouve juste au-dessus du bureau, au-dessus des ongles, de sorte qu’il se trouve quelque part près du "milieu" de chaque pour.

Nous fixons les bandes de manière à ce qu’elles ne s’étirent que dans la direction qui nous sépare (ni à gauche ni à droite). Laissées à elles-mêmes, elles tireraient de manière à orienter la direction de l’étirement à angle droit avec le bâton, mais ici nous l’empêchons, de sorte que leur direction d’étirement ne reste que dans les directions qui s’éloignent de notre bureau. Maintenant, nous laissons le bâton reposer lorsque les bandes le tirent vers chaque clou, avec des clous plus distants (avec des élastiques plus étirés) tirant d'autant plus fort que les clous près du bâton.

Ensuite, le résultat combiné de toutes les bandes qui tirent sur le bâton serait (idéalement, au moins) de tirer sur le bâton afin de minimiser la somme des longueurs au carré des bandes de caoutchouc étirées; dans cette direction directement à travers la table, la distance entre notre bord de la table et le bâton à une position x donnée serait notre estimation de la valeur attendue de y étant donné x.

Il s’agit essentiellement d’une estimation de régression linéaire.

Maintenant, imaginez qu'au lieu de clous, nous ayons beaucoup de fruits (comme de petites pommes) suspendus à un grand arbre et nous souhaitons trouver la distance moyenne des fruits au-dessus du sol, qui varie en fonction de la position sur le sol. Imaginez que dans ce cas, les hauteurs au-dessus du sol deviennent plus grandes au fur et à mesure que nous avançons et légèrement plus grandes au fur et à mesure que nous avançons à droite, toujours de manière régulière. Ainsi, chaque pas en avant modifie généralement la hauteur moyenne du même montant, et chaque pas vers le bas. right changera également la moyenne d'un montant à peu près constant (mais cette variation de la moyenne pas à pas est différente de la quantité de changement obtenue par la suite).

Si nous minimisons la somme des distances verticales au carré des fruits sur une mince feuille plate (peut-être une mince feuille de plastique très rigide) afin de déterminer comment la hauteur moyenne change lorsque nous avançons ou que nous marchons à droite, ce serait: une régression linéaire avec deux prédicteurs - une régression multiple.

Ce sont les deux seuls cas que les graphes peuvent aider à comprendre (ils peuvent montrer rapidement ce que je viens de décrire en détail, mais espérons que vous avez une base sur laquelle conceptualiser les mêmes idées). Au-delà de ces deux cas les plus simples, il ne reste que les mathématiques.

Prenons maintenant votre exemple de prix de la maison; vous pouvez représenter la superficie de chaque maison par une distance le long de votre bord du bureau - la plus grande taille de maison étant une position proche du bord droit, chaque autre taille de maison sera une position plus à gauche où un certain nombre de centimètres représentera une partie nombre de mètres carrés. Maintenant, la distance représente le prix de vente. Représentez la maison la plus chère comme une distance particulière près du bord le plus éloigné du bureau (comme toujours, le bord le plus éloigné de votre chaise), et chaque centimètre déplacé représente un certain nombre de rials.

Pour le présent, imaginons que nous ayons choisi la représentation de sorte que le bord gauche du bureau corresponde à une surface de maison nulle et le bord proche à un prix de maison égal à 0. Nous avons ensuite placé un clou pour chaque maison.

Nous n'aurons probablement pas de clous près de l'extrémité gauche de notre bord (ils pourraient être principalement orientés vers la droite et loin de nous) car ce n'est pas nécessairement un bon choix d'échelle, mais votre choix d'un modèle sans interception le fait. une meilleure façon de discuter.

Maintenant, dans votre modèle, vous forcez le manche à passer à travers une boucle de ficelle située dans le coin gauche du bord inférieur du bureau, ce qui force le modèle ajusté à avoir un prix égal à zéro pour la zone zéro, ce qui peut sembler naturel. certaines composantes du prix assez constantes qui ont affecté chaque vente. Dans ce cas, il serait logique que l'interception soit différente de zéro.

Dans tous les cas, avec l'ajout de cette boucle, le même exercice d'élastique que précédemment retrouvera notre estimation des moindres carrés de la ligne.


Wow, merci pour cette longue réponse spatiale. Cela a beaucoup expliqué. Merci.
Parham Doustdar

2

Avez-vous rencontré le type de grille-pain que vous obtenez souvent dans les hôtels? Vous mettez du pain sur un tapis roulant à une extrémité et il sort sous forme de pain grillé à l'autre. Malheureusement, dans le grille-pain de cet hôtel bon marché, les radiateurs ont tous été déplacés à des hauteurs et à des distances aléatoires depuis l'entrée du grille-pain. Vous ne pouvez pas déplacer les éléments chauffants ou plier le chemin de la courroie (ce qui est droit, soit dit en passant (c'est ici que le foret linéaire entre en jeu), mais vous pouvez modifier la hauteur et l'inclinaison de la courroie.

Compte tenu de la position de tous les appareils de chauffage, une régression linéaire vous indiquera la hauteur et l'angle corrects pour placer la courroie afin d'obtenir le plus de chaleur possible. En effet, une régression linéaire minimisera la distance moyenne entre le pain grillé et les appareils de chauffage.

Mon premier emploi de vacances consistait à effectuer des régressions linéaires à la main. Le gars qui a dit que vous ne voulez pas faire ça, c'est VRAI !!!


2

Mon explication préférée de la régression linéaire est géométrique, mais pas visuelle. Il traite l'ensemble de données comme un point unique dans un espace de grande dimension, plutôt que de le diviser en un nuage de points dans un espace à deux dimensions.

La surface et le prix d'une maison sont une paire de nombres que vous pouvez considérer comme les coordonnées d'un point dans un espace à deux dimensions. Les zones et les prix de mille maisons sont mille paires de nombres, que vous pouvez considérer comme les coordonnées d’un point dans un espace à deux mille dimensions. Pour plus de commodité, j'appellerai un espace de deux mille dimensions "espace de données". Votre ensemble de données est un point unique dans l’espace de données.ap(a,p)a1,,a1000p1,,p1000

D=(a1,,a1000,p1,,p1000)
D

Si la relation entre surface et prix était parfaitement linéaire, le point serait situé dans une région très particulière de l’espace de données, que je qualifierai de "feuille linéaire". Il comprend les points Les nombres et peuvent varier, mais sont définis comme les mêmes zones que celles qui figurent dans votre ensemble de données. J'appelle la feuille linéaire une "feuille" car elle est bidimensionnelle: son point est spécifié par les deux coordonnées etD

M(ρ,β)=(a1,,a1000,ρa1+β,,ρa1000+β).
ρβa1,,a1000ρβ. Si vous voulez avoir une idée de la forme de la feuille linéaire, imaginez un mince fil droit tendu dans un espace tridimensionnel. La feuille linéaire est comme ça: elle est parfaitement plate et sa dimension est très basse comparée à la dimension de l’espace dans lequel elle se trouve.

Dans un quartier réel, la relation entre surface et prix ne sera pas parfaitement linéaire, le point ne se situera donc pas exactement sur la feuille linéaire. Toutefois, il se peut qu’il se trouve très près de la feuille linéaire. Le but de la régression linéaire est de trouver le point sur la feuille linéaire qui se trouve le plus proche du point de données . Ce point est le meilleur modèle linéaire pour les données.DM(ρ,β)D

En utilisant le théorème de Pythagore, vous pouvez déterminer que le carré de la distance entre et est En d'autres termes, la distance entre le point de données et le point du modèle est l'erreur quadratique totale du modèle! Minimiser l'erreur quadratique totale d'un modèle revient à minimiser la distance entre le modèle et les données dans l'espace de données.M ( ρ , β ) [ p 1 - ( ρ a 1 + β ) ] 2 + + [ p 1000 - ( ρ a 1000 + β ) ] 2 .DM(ρ,β)

[p1(ρa1+β)]2++[p1000(ρa1000+β)]2.

Comme Chris Rackauckas a fait remarquer , le calcul donne un moyen très pratique pour trouver les coordonnées et qui réduisent au minimum la distance entre et .β D M ( ρ , β )ρβDM(ρ,β)


1

Les réponses de @Chris Rackauckas et @ EDM sont parfaitement claires. Il existe de nombreuses façons d’approcher une régression linéaire simple qui ne nécessitent pas de tracé ou d’explications visuelles de l’estimation par la méthode des moindres carrés ordinaires, et qui fournissent des explications très solides de ce qui se passe réellement lorsque vous exécutez OLS.

J'ajouterais que l'utilisation de diagrammes de dispersion comme outil d'instruction pour apprendre tout type de nouvelle procédure de modélisation, qu'il s'agisse d'un modèle paramétrique à l'ancienne, d'algorithmes d'apprentissage automatique avancés ou d'algorithmes bayésiens, permet de réduire le temps d'apprentissage algorithme fait.

La représentation graphique est également très importante pour l'analyse de données exploratoire lorsque vous commencez à travailler avec un nouvel ensemble de données. J'ai eu l'occasion de collecter de nombreuses données, d'élaborer la théorie, de planifier soigneusement mon modèle, puis de l'exécuter, pour aboutir à des résultats dépourvus de tout pouvoir prédictif. Tracer des relations bivariées peut éliminer certaines incertitudes: dans votre exemple, il est possible que le prix d'une maison soit linéairement lié à la superficie, mais peut-être que la relation n'est pas linéaire. Les diagrammes de dispersion vous aident à déterminer si vous avez besoin de termes d'ordre plus élevé dans votre régression, si vous souhaitez utiliser une méthode différente de la régression linéaire ou si vous souhaitez utiliser une sorte de méthode non paramétrique.


1

Google pour Anscombe Quartet.

Il montre 4 ensembles de données qui, lors de l'inspection numérique, ne montrent pas beaucoup de différence.

Cependant, lors de la création d'un nuage de points visuel, les différences deviennent nettement visibles.

Cela donne une idée assez claire de la raison pour laquelle vous devriez toujours tracer vos données, régression ou non régression :-)


0

Nous voulons une solution qui minimise la différence entre les valeurs prédites et réelles.

y=bx+a

yy

Si nous supposons que la distribution des erreurs est normalement distribuée, il s'avère qu'il existe une solution analytique à ce problème de minimisation. La somme des carrés de différences est la meilleure valeur à minimiser pour un meilleur ajustement. Mais la normalité n'est pas requise dans le cas général.

Il n'y a pas grand chose de plus vraiment.

y=bx+a

De nos jours, il reste plus comme aide à la compréhension, mais il n’est pas nécessaire de vraiment comprendre la régression linéaire.

EDIT: a remplacé l’hypothèse de normalité des erreurs par une liste correcte mais moins concise. La normalité était nécessaire pour avoir une solution analytique et peut être supposée pour de nombreux cas pratiques. Dans ce cas, la somme des carrés est optimale non seulement pour l'estimateur linéaire mais aussi pour maximiser la vraisemblance.

Si, en outre, l'hypothèse de normalité de la distribution d'erreur est vérifiée, alors la somme des carrés est optimale entre les estimateurs linéaires et non linéaires et maximise la vraisemblance.


1
L'hypothèse de distribution normale n'est pas requise pour tout ce que vous avez décrit
Aksakal le

Veuillez vérifier cette explication. Stats.stackexchange.com/a/1516/98469
Diego

Le lien n'a rien à voir avec votre réponse. Si vous développez de petits exemples de propriétés ou MLE, vous pouvez alors appliquer l'hypothèse de distribution normale, mais dans l'état actuel des choses, la description MLS de votre réponse n'a pas besoin de distribution normale. En fait, pour minimiser la somme des carrés, vous n'avez besoin d'aucune distribution ou statistique. C'est de l'algèbre pure.
Aksakal

La question est de savoir pourquoi nous minimisons la somme des carrés et non une autre métrique. Pas sur la façon de minimiser la somme des carrés.
Diego

Minimiser la somme des carrés n'a rien à voir avec une distribution normale. C'est juste votre fonction de perte. Toute autre distribution d'erreur peut être utilisée avec cette fonction de perte. Vous avez besoin des distributions dans certains cas, par exemple si vous voulez faire des déductions sur les valeurs de paramètres dans de petits échantillons, etc. Même dans ce cas, vous pourriez utiliser d'autres distributions, je ne suis pas sûr de savoir pourquoi vous êtes bloqué à la normale.
Aksakal
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.