Pourquoi les chercheurs en économie utilisent-ils la régression linéaire pour les variables de réponse binaires?

Dernièrement, j'ai dû lire plusieurs articles en économie (un domaine que je ne connais pas trop). Une chose que j'ai remarquée est que même lorsque la variable de réponse est binaire, les modèles de régression linéaire ajustés en utilisant OLS sont omniprésents. Ma question est donc:

Pourquoi la régression linéaire est-elle privilégiée par exemple la régression logistique dans le domaine économique? Est-ce simplement une pratique courante ou est-ce une procédure qui est activement préconisée (dans les journaux, par les enseignants, etc.)?

Veuillez noter que je ne demande pas pourquoi l'utilisation de la régression linéaire avec une réponse binaire peut être une mauvaise idée, ni quelles sont les méthodes alternatives. Au contraire, je demande pourquoi les gens utilisent la régression linéaire dans ce contexte parce que je connais les réponses à ces deux questions.

regression logistic econometrics

— MånsT
source

Pouvez-vous donner des exemples?

— Stephan Kolassa

Ce n'est pas correct. L'économie et l'économétrie ont également une vaste littérature sur les modèles logit et probit et les modèles connexes. Je suis aussi un étranger et je ne peux pas facilement quantifier l'utilisation relative, mais la littérature est assez grande pour réfuter «omniprésente» (c'est-à-dire partout!). Il y a ici une question de savoir pourquoi le soi-disant modèle de probabilité linéaire est utilisé et je ne pense pas que l'explication doive être profonde ou difficile à trouver: elle est simple à comprendre et parfois elle fonctionne correctement.

— Nick Cox

L'économie n'a qu'une relation très informelle avec les mathématiques. Je ne m'en inquiéterais pas trop.

— Sycorax dit Réintégrer Monica le

@Sycorax J'ai une impression similaire. Et si l'on est bâclé avec les mathématiques, il / elle peut toujours construire quelque chose qui "fonctionne".

— Haitao Du

@Sycorax Ce n'est ni vrai ni juste. Certes, affirmer que "vous ne vous en soucieriez pas trop" est irresponsable à la question. Selon le sous-domaine, l'économie peut avoir une relation très forte avec les mathématiques et les statistiques. C'est juste que les économistes sont souvent préoccupés par l'inférence causale, alors qu'ils devaient également traiter des données d'observation (comme beaucoup de sciences sociales). Cela rend extrêmement difficile d'établir une rigueur mathématique forte sans apporter une certaine intuition économique.

— StAtS

Réponses:

Ce billet de blog sur le blog d'économétrie de Dave Giles souligne principalement les inconvénients du modèle de probabilité linéaire (LPM).

Cependant , il inclut une courte liste de raisons pour lesquelles les chercheurs choisissent de l'utiliser:

C'est plus simple sur le plan informatique.
Il est plus facile d'interpréter les "effets marginaux".
Il évite le risque de spécification erronée de la "fonction lien".
Il y a des complications avec Logit ou Probit si vous avez des régresseurs factices endogènes.
Les effets marginaux estimés des modèles LPM, Logit et Probit sont généralement très similaires, surtout si vous avez un échantillon de grande taille.

Je ne sais pas si le LPM est tout ce qui est couramment utilisé par rapport au logit ou au probit, mais certaines des raisons ci-dessus me conviennent.

— Génial38
source

+1, merci pour le terme modèle de probabilité linéaire, je ne le connaissais pas auparavant.

— Haitao Du

Il y a une grande section à ce sujet dans "Mostly Harmless Econometrics" par Angrist et Pischke, si vous êtes intéressé par plus.

— shf8888

J'avais des questions similaires lorsque j'ai lu des articles d'autres dossiers. Et posé beaucoup de questions à ce sujet, comme celle-ci dans la communauté Education Data Mining: Pourquoi utiliser la perte au carré sur les probabilités au lieu de la perte logistique?

Ici, je présenterai beaucoup d'opinions personnelles.

Je pense que la fonction de perte n'a pas trop d'importance dans de nombreux cas d'utilisation pratiques. Certains chercheurs peuvent en savoir plus sur la perte au carré et en construire le système, cela fonctionne toujours et résout des problèmes du monde réel. Les chercheurs peuvent ne jamais connaître de perte logistique ou de charnière et vouloir l'essayer. De plus, ils peuvent ne pas vouloir trouver le modèle mathématique optimal, mais veulent résoudre des problèmes réels que personne n'a tenté de résoudre auparavant.

Ceci est un autre exemple: si vous cochez cette réponse à ma question, ils sont tous en quelque sorte similaires. Quels sont les impacts du choix de différentes fonctions de perte dans la classification pour approcher la perte 0-1

Plus de réflexions: une recherche sur l'apprentissage automatique peut consacrer beaucoup de temps au modèle à choisir et à l'optimisation du modèle. En effet, un chercheur en apprentissage automatique peut ne pas avoir la capacité de collecter plus de données / d'obtenir plus de mesures. Et le travail d'un chercheur en apprentissage automatique consiste à améliorer les mathématiques et non à mieux résoudre un problème spécifique du monde réel.

D'un autre côté, dans le monde réel, si les données sont meilleures, elles battent tout. Ainsi, choisir un réseau de neurones ou une forêt aléatoire peut ne pas trop d'importance. Tous ces modèles sont similaires à ceux qui souhaitent utiliser l'apprentissage automatique comme outil pour résoudre des problèmes du monde réel. Une personne qui n'est pas intéressée par le développement de mathématiques ou d'outils peut consacrer plus de temps à l'utilisation de connaissances spécifiques du domaine pour améliorer le système.

Comme je l'ai mentionné dans le commentaire. Et si l'on est bâclé avec les mathématiques, il / elle sera toujours en mesure de construire quelque chose qui fonctionne.

— Haitao Du
source

(+1) C'est beaucoup de "guillemets" hxd, que sont-ils censés communiquer? Est-ce que "ça marche" signifie "ils pensent que ça marche, mais ça ne marche pas" ou ça veut dire "ça marche"?

— Matthew Drury

@MatthewDrury merci pour le commentaire. Je pense que j'avais beaucoup de sentiments personnels et je ne sais pas comment les écrire. Je pense que beaucoup d'entre eux ne sont ni formels ni trop subjectifs. c'est pourquoi j'ai eu beaucoup de citations.

— Haitao Du

Je pense qu'il est plus clair de simplement les étiqueter comme des opinions personnelles. C'est ce que je fais en classe avec les étudiants: "C'est à la limite de l'opinion personnelle mais, les SVM sont nulles" (pas un vrai exemple, ou n'est-ce pas ...)

— Matthew Drury

@MatthewDrury merci de m'avoir conseillé sur l'écriture, non il n'y a pas de citations dans la réponse!

— Haitao Du