La régression linéaire est-elle obsolète? [fermé]


12

Je suis actuellement dans une classe de régression linéaire, mais je ne peux pas oublier que ce que j'apprends n'est plus pertinent ni dans les statistiques modernes ni dans l'apprentissage automatique. Pourquoi consacre-t-on autant de temps à l'inférence sur la régression linéaire simple ou multiple alors que tant de jeux de données intéressants enfreignent fréquemment de nombreuses hypothèses irréalistes de régression linéaire? Pourquoi ne pas plutôt enseigner l'inférence sur des outils plus flexibles et modernes comme la régression à l'aide de machines à vecteurs de support ou d'un processus gaussien? Bien que plus compliqué que de trouver un hyperplan dans un espace, cela ne donnerait-il pas aux étudiants une bien meilleure expérience pour s'attaquer aux problèmes modernes?


10
Les tournevis rendent-ils les marteaux obsolètes? Ou chacun accomplit-il une tâche différente?
Sycorax dit Réintégrer Monica le

6
J'ai un outil multifonction qui fonctionne comme un couteau, une scie, deux tournevis différents, une paire de pinces et probablement quelques autres choses, mais quand j'ai besoin d'un de ces outils, c'est la dernière chose que j'atteins. Il n'est utile que dans un pincement, ce n'est jamais le "meilleur outil pour le travail".
Darren

7
Beaucoup, beaucoup de situations rencontrées par de vraies personnes impliquent de très petits ensembles de données avec un bruit élevé; dans de nombreux cas, des modèles plus complexes ne sont pas réalisables alors qu'au moins une bonne partie du temps un modèle linéaire simple est au moins tenable. Alors que les grands ensembles de données (et leurs problèmes associés) continueront de croître en proportion de l'analyse totale des données qui se poursuit, les très petits ensembles de données et les analyses relativement simples sur lesquelles ils s'appuient ne disparaîtront jamais. De plus, les outils les plus sophistiqués sont construits directement sur les plus simples, non seulement historiquement mais conceptuellement.
Glen_b -Reinstate Monica

6
En plus des nombreuses situations où la régression linéaire est d'une utilité pratique continue, il convient également de souligner qu'elle est fondamentale dans l'apprentissage d'une large classe de modèles additifs plus sophistiqués. À cet égard, cette question revient en quelque sorte à se demander si le calcul rend l'arithmétique obsolète.
Jacob Socolar

1
@Aksakal Veuillez développer. Qu'en est-il de l'utilisation dans l'optimisation bayésienne?
Mark L. Stone

Réponses:


24

Il est vrai que les hypothèses de régression linéaire ne sont pas réalistes. Cependant, cela est vrai pour tous les modèles statistiques. "Tous les modèles sont faux, mais certains sont utiles."

Je suppose que vous avez l'impression qu'il n'y a aucune raison d'utiliser une régression linéaire alors que vous pourriez utiliser un modèle plus complexe. Ce n'est pas vrai, car en général, les modèles plus complexes sont plus vulnérables au surajustement et utilisent plus de ressources de calcul, ce qui est important si, par exemple, vous essayez de faire des statistiques sur un processeur intégré ou un serveur Web. Les modèles plus simples sont également plus faciles à comprendre et à interpréter; en revanche, les modèles complexes d'apprentissage automatique tels que les réseaux de neurones ont tendance à se retrouver plus ou moins sous la forme de boîtes noires.

Même si la régression linéaire devient un jour pratiquement inutile (ce qui semble extrêmement improbable dans un avenir prévisible), elle restera théoriquement importante, car les modèles plus complexes tendent à s'appuyer sur la régression linéaire comme fondement. Par exemple, pour comprendre une régression logistique à effets mixtes régularisée, vous devez d'abord comprendre la régression linéaire ordinaire.

Cela ne veut pas dire que les modèles plus complexes, plus récents et plus brillants ne sont ni utiles ni importants. Beaucoup le sont. Mais les modèles plus simples sont plus largement applicables et donc plus importants, et il est clairement logique de présenter d'abord si vous allez présenter une variété de modèles. Il y a beaucoup de mauvaises analyses de données menées ces jours-ci par des gens qui s'appellent des "scientifiques des données" ou quelque chose mais qui ne connaissent même pas les éléments fondamentaux, comme ce qu'est vraiment un intervalle de confiance. Ne soyez pas une statistique!


Pouvez-vous clarifier ce que vous entendez par «modèle complexe»? OP signifie-t-il la même chose?
Hatchepsout

1
@Hatshepsut Pratiquement tout ce qui n'est pas seulement une régression linéaire ou un cas particulier de celle-ci. L'OP a donné des SVM et des modèles de processus gaussiens comme exemples. J'ai mentionné les modèles mixtes, la régression logistique et la régression pénalisée. Quelques autres exemples sont les arbres de décision, les réseaux de neurones, le MARS, les modèles hiérarchiques bayésiens et les modèles d'équations structurelles. Si vous demandez comment nous décidons si un modèle est plus complexe qu'un autre, ou ce qui compte exactement comme modèle, ce sont des questions à validation croisée en elles-mêmes.
Kodiologist

"Sur-ajustement"; comme utiliser un polynôme du neuvième ordre pour ajuster quelque chose qui s'est avéré être une somme pondérée d'exponentielles. Il était si bon que le tracé reproduisait les erreurs de l'instrument juste au-dessus du niveau de bruit. Je me demande toujours si l'utilisation de ce polynôme aurait mieux fonctionné.
Joshua

7

La régression linéaire en général n'est pas obsolète . Il y a encore des gens qui travaillent sur la recherche autour des méthodes liées à LASSO, et comment elles sont liées à plusieurs tests par exemple - vous pouvez google Emmanuel Candes et Malgorzata Bogdan.

Si vous posez des questions sur l'algorithme OLS en particulier, la réponse pourquoi ils enseignent cela est que la méthode est si simple qu'elle a une solution de forme fermée. C'est aussi plus simple que la régression de crête ou la version avec lasso / élastique. Vous pouvez construire votre intuition / preuves sur la solution d'une simple régression linéaire puis enrichir le modèle de contraintes supplémentaires.


3

Je ne pense pas que la régression soit ancienne, elle pourrait être considérée comme triviale pour certains problèmes auxquels sont actuellement confrontés les scientifiques des données, mais c'est toujours l'ABC de l'analyse statistique. Comment êtes-vous censé comprendre si SVM fonctionne correctement si vous ne savez pas comment fonctionne le modèle le plus simple? L'utilisation d'un outil aussi simple VOUS apprend à examiner les données avant de plonger dans des modèles complexes et fous et à comprendre en profondeur quels outils peuvent être utilisés dans une analyse plus approfondie et lesquels ne le peuvent pas. Après avoir eu cette conversation avec un professeur et un collègue à moi, elle m'a dit que ses étudiants étaient excellents dans l'application de modèles complexes, mais qu'ils ne pouvaient pas comprendre ce qu'est l'effet de levier ou lire un simple qq-plot pour comprendre ce qui n'allait pas avec les données. Souvent, dans le modèle le plus simple et le plus lisible se trouve la beauté.


3

La réponse courte est non . Par exemple, si vous essayez un modèle linéaire avec des données MNIST, vous obtiendrez toujours ~ 90% de la précision!

Une réponse longue serait "selon le domaine", mais le modèle linéaire est largement utilisé.

  • Dans certains domaines, par exemple, l'étude médicale, il est très coûteux d'obtenir un point de données. Et le travail d'analyse est toujours similaire à celui d'il y a de nombreuses années: la régression linéaire joue toujours un rôle très important.

  • Dans le morden machine learning, disons, la classification de texte, le modèle linéaire est toujours très important, bien qu'il existe d'autres modèles plus sophistiqués. C'est parce que le modèle linéaire est très "stable", il aura moins envie de trop ajuster les données.

Enfin, le modèle linéaire est vraiment la pierre angulaire de la plupart des autres modèles. Apprendre bien vous sera bénéfique à l'avenir.


2

En termes pratiques, la régression linéaire est utile même si vous utilisez également un modèle plus complexe pour votre travail. La clé est que la régression linéaire est facile à comprendre et donc facile à utiliser pour comprendre conceptuellement ce qui se passe dans des modèles plus complexes.

Je peux vous offrir un exemple d'application pratique de mon vrai travail en direct en tant qu'analyste statistique. Si vous vous retrouvez dans la nature, sans surveillance, avec un grand ensemble de données, et que votre patron vous demande de faire une analyse à ce sujet, par où commencer? Eh bien, si vous n'êtes pas familier avec l'ensemble de données et que vous n'avez pas une bonne idée de la façon dont les différentes fonctionnalités devraient se relier entre elles, alors un modèle complexe comme ceux que vous avez suggérés est un mauvais endroit pour commencer à enquêter.

Au lieu de cela, le meilleur endroit pour commencer est une simple régression linéaire ancienne. Effectuez une analyse de régression, examinez les coefficients et représentez graphiquement les résidus. Une fois que vous commencez à voir ce qui se passe avec les données, vous pouvez alors prendre des décisions quant aux méthodes avancées que vous allez essayer d'appliquer.

J'affirme que si vous venez de brancher vos données dans une boîte noire de modèle avancé comme sklearn.svm (si vous êtes en Python), alors vous aurez très peu confiance que vos résultats seront significatifs.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.