Quelles sont les principales différences philosophiques, méthodologiques et terminologiques entre l'économétrie et d'autres domaines statistiques?

70

L'économétrie chevauche en grande partie les statistiques traditionnelles, mais utilise souvent son propre jargon sur une variété de sujets ("identification", "exogène", etc.). Une fois, j'ai entendu un professeur de statistique appliquée d'un autre domaine dire que la terminologie est souvent différente mais que les concepts sont les mêmes. Pourtant, il a aussi ses propres méthodes et distinctions philosophiques (on pense au célèbre essai de Heckman).

Quelles différences de terminologie existe-t-il entre l'économétrie et les statistiques classiques et où les domaines divergent-ils pour devenir différents en plus de la terminologie?

econometrics terminology

— Ari B. Friedman
source

96

Il y a des différences terminologiques où la même chose est appelée différents noms dans différentes disciplines:

Les données longitudinales en biostatistique sont des observations répétées des mêmes individus = données de panel en économétrie.
$1/(1+\exp[-x'\beta])$ $x$
$M$

Il existe des différences terminologiques dans lesquelles le même terme est utilisé pour désigner différentes choses dans différentes disciplines:

$x'\beta$
Par inférence robuste, on entend des erreurs types corrigées par l'hétéroscédasticité pour les économistes (avec extensions des erreurs types groupées et / ou des erreurs types corrigées par autocorrélation) et des méthodes robustes aux valeurs éloignées les plus éloignées pour les statisticiens.
Il semble que les économistes aient une idée ridicule que les échantillons stratifiés sont ceux dans lesquels les probabilités de sélection varient entre les observations. Ceux-ci devraient être appelés échantillons à probabilité inégale. Les échantillons stratifiés sont ceux dans lesquels la population est divisée en groupes prédéfinis en fonction de caractéristiques connues avant l' échantillonnage.
L'exploration de données par les économétriciens (du moins dans la littérature des années 1980) voulait dire plusieurs tests et pièges qui ont été merveilleusement expliqués dans le livre de Harrell . Les procédures d'exploration de données des informaticiens (et des statisticiens) sont des méthodes non paramétriques permettant de rechercher des modèles dans les données, également appelées apprentissage statistique .

Je considère les contributions uniques de l'économétrie comme étant

Manières de traiter les modèles d’endogénéité et de régression mal spécifiés, en reconnaissant, comme mpiktas l’a expliqué dans une autre réponse , que (i) les variables explicatives peuvent être elles-mêmes aléatoires (et donc corrélées à des erreurs de régression produisant un biais dans les estimations de paramètres), les modèles peuvent souffrir de variables omises (qui font alors partie du terme d'erreur), (iii) il peut exister une hétérogénéité non observée de la manière dont les agents économiques réagissent aux stimuli, ce qui complique les modèles de régression standard. Angrist & Pischke est un excellent compte rendu de ces problèmes et les statisticiens en apprendront beaucoup sur la manière de procéder à une analyse de régression. À tout le moins, les statisticiens devraient apprendre et comprendre la régression des variables instrumentales.
$\chi^2$ $s^2 (X'X)^{-1}$
Il y a eu beaucoup de travail dans le domaine temporel avec des processus espacés régulièrement - c'est ainsi que sont collectées les données macroéconomiques. Les contributions uniques incluent des processus intégrés et co-intégrés et des méthodes d'autorégression hétéroscédasticité conditionnelle (G) ARCH. Étant généralement une micro-personne, je les connais moins bien.

$\beta/\sigma$ $\sigma$ Les économistes parlent bien sûr.) Bien sûr, un utilitaire dont les entrées sont linéaires est une chose très amusante du point de vue de Microéconomie 101, bien que certaines généralisations des fonctions semi-concaves soient probablement effectuées à Mas-Collel.

$C_p$ , DFBETA, etc.), l’analyse des données manquantes (l’identification partielle de Manski est certes fantaisiste, mais la décomposition et les imputations multiples par MCAR / MAR / NMAR sont plus utiles), et les statistiques d’enquête. De nombreuses autres contributions des statistiques classiques ont été interprétées par l'économétrie et adoptées soit comme méthodologie standard, soit comme méthode à court terme: les modèles ARMA des années 1960 sont probablement plus connus en économétrie qu'en statistique, en statistiques, il se peut que l’offre d’un cours sur les séries chronologiques n’aboutisse pas; les estimateurs de rétrécissement / régression de crête des années 1970 sont venus et sont partis; le bootstrap des années 1980 est une réaction instinctive dans toutes les situations compliquées, même si les économistes doivent être plus conscients des limites du bootstrap; la probabilité empirique des années 90 a vu plus de méthodologies développées par les économétriciens théoriques que par les statisticiens théoriques; Les méthodes computationnelles bayésiennes des années 2000 sont utilisées en économétrie, mais j’ai le sentiment qu’elles sont trop paramétriques, trop basées sur des modèles pour être compatibles avec le paradigme de robustesse que j’ai mentionné précédemment. Que les économistes découvrent que l’utilisation de l’apprentissage statistique / de la bioinformatique ou des données spatio-temporelles qui font extrêmement chaud dans les statistiques modernes est un appel ouvert.

— StasK
source

14

+1 Ceci est un magnifique exemple de ce que d'excellentes réponses peuvent émerger lorsqu'une question est ouverte à une communauté diverse .

— whuber

1

@ Whuber, merci pour le commentaire. Les divisions disciplinaires me rendent dingue, franchement.

— StasK

@StasK Excellente réponse. Un point rapide, cependant. "Dans l'ensemble, les économistes ont tendance à rechercher une interprétation forte des coefficients dans leurs modèles." Strictement parlant, ceci est légèrement erroné car dans l’analyse VAR (ce qui est très populaire, votre déclaration ne doit pas être exprimée en termes "globaux"), le point central est l’interprétation des fonctions de réponse impulsionnelle plutôt que l’interprétation des coefficients du modèle , ils sont trop compliqués pour essayer d’interpréter).

— Graeme Walsh

@GraemeWalsh - Je vois, comme je l'ai dit, je ne travaille pas en macro / série temporelle. Merci de l'avoir signalé.

— StasK

20

Il est préférable d'expliquer en termes de régression linéaire, car c'est l'outil principal de l'économétrie. En régression linéaire, nous avons un modèle:

Y = X β + ε

$Y=X\beta+\varepsilon$

$X$

Une autre façon de voir la différence est que les données d'autres champs statistiques peuvent être considérées comme un échantillon iid. En économétrie, dans de nombreux cas, les données sont un échantillon du processus stochastique, dont iid n'est qu'un cas particulier. D'où un jargon différent.

Connaître ce qui précède est généralement suffisant pour passer facilement de l’économétrie à d’autres champs statistiques. Comme le modèle est généralement donné, il n’est pas difficile de savoir ce qui est quoi. A mon avis, la différence de jargon entre l'apprentissage automatique et les statistiques classiques est beaucoup plus grande qu'entre l'économétrie et les statistiques classiques.

Notez cependant qu'il existe des termes qui ont une signification compliquée dans les statistiques sans l'économétrie. Le premier exemple est celui des effets fixes et aléatoires. Les articles de Wikipedia sur ces termes sont un désordre, mélangeant économétrie et statistiques.

— mpiktas
source

5

"Le principal exemple est celui des effets fixes et aléatoires. Les articles de Wikipédia sur ces termes sont un véritable gâchis, mêlant économétrie et statistiques." Tellement vrai.

— Michael Bishop

8

Une différence subtile est que les économistes attribuent parfois une signification aux termes d'erreur dans les modèles. Cela est particulièrement vrai chez les économistes "structurels" qui croient qu'il est possible d'estimer des paramètres structurels qui représentent un intérêt ou une hétérogénéité individuelle.

Un exemple de classe de ceci est le probit. Alors que les statisticiens sont généralement indifférents quant à la cause du terme d'erreur, les économistes considèrent souvent que les termes d'erreur utilisés dans les régressions représentent l'hétérogénéité des préférences. Dans le cas du probit, vous pouvez modéliser la décision d'une femme d'intégrer le marché du travail. Cela sera déterminé par diverses variables, mais le terme d'erreur représentera un degré non observé de variation des préférences individuelles en matière de travail.

— d_a_c321
source

4

Les statisticiens peuvent être agnostiques quant à la cause du terme d'erreur, mais cela ne signifie pas qu'ils n'en ont rien à faire. Vous décrivez l'hétérogénéité du terme d'erreur, ce qui signifie que les hypothèses habituelles sur les termes d'erreur ne sont pas satisfaites. Aucun statisticien ne l'ignorera.

— Mpiktas

2

Fait intéressant, dans ce cas, la forme du terme d'erreur ne pose aucun problème. Les statisticiens et les économistes vont se soulever et s'inquiéter de l'hétéroscédasticité ou de tout autre terme d'erreur non corrigé. Cependant, même si le terme d'erreur est N (0,1) comme dans un probit, les économistes sont enclins à lui donner une interprétation économique.

— d_a_c321

5

Cela s’applique à la modélisation en général. Selon mon expérience, l'interprétation du modèle à votre manière particulière ne se limite pas aux économistes.

— Mpiktas

Je ne suis pas d'accord. Les économistes ont clairement le monopole de l’interprétation intelligente des modèles <je plaisante!>. Bon point cependant.

— d_a_c321

8

Bien entendu, toute déclaration large sera forcément trop large. Mais, selon mon expérience, l’économétrie se préoccupe des relations de cause à effet et la statistique s’intéresse davantage à la prédiction.

Sur le plan économique, vous ne pouvez pas éviter la littérature sur la "révolution de la crédibilité" ( économétrie essentiellement inoffensive , etc.). Les économistes se concentrent sur l’impact de certains traitements sur certains résultats, en veillant à l’évaluation et à la formulation de recommandations.

En ce qui concerne les statistiques, vous constaterez la montée en puissance de l’exploration de données et de l’apprentissage automatique, notamment des applications à l’analyse en ligne et à la génétique. Ici, les chercheurs sont plus intéressés par la prédiction du comportement ou des relations que par leur explication précise. ils recherchent des modèles plutôt que des causes.

Je voudrais également mentionner que les statisticiens étaient traditionnellement plus intéressés par la conception expérimentale, remontant aux expériences agricoles des années trente.

— Charlie
source

7

J'ai remarqué que, comparés à ce que j'appellerais les économétriciens de la statistique statistique traditionnels, ils semblaient réticents à utiliser des graphiques, qu'ils soient schématiques ou basés sur des données. La couverture de la régression, qui est naturellement encore plus centrale en économétrie qu’ailleurs, en est un exemple majeur. Les introductions modernes à la régression par les statisticiens soulignent toute l’importance de la représentation graphique des données et des résultats de la régression, y compris les diagrammes de diagnostic, alors que le traitement dans les textes économétriques est nettement plus formel. Les textes orientés en économétrie n'incluent pas beaucoup de graphiques et ne valorisent pas fortement leur valeur.

Il est difficile d’analyser cela sans le risque de paraître non-diplomatique ou pire, mais j’imagine que la combinaison des éléments suivants est contributive.

Désir de rigueur. Les économétriciens ont tendance à se méfier ou à être hostiles à l'apprentissage des données et préfèrent fortement que les décisions soient fondées sur des tests formels (dès lors qu'elles ne sortent pas d'un théorème). Ceci est lié à une préférence pour que les modèles soient basés sur une "théorie" (bien que cela puisse simplement signifier qu'un prédicteur a été mentionné précédemment dans un article par un économiste ne parlant pas de données).
Pratiques de publication. Les articles pour les revues d'économie ou d'économétrie sont chargés de tableaux hautement stylisés de coefficients, d'erreurs standard, de statistiques t et de valeurs-p. L'ajout de graphiques ne semble même pas être envisagé dans de nombreux cas et, le cas échéant, serait suggéré aux auteurs de le couper. Ces pratiques ont été intégrées au cours d’une génération ou plus dans la mesure où elles sont devenues automatiques, avec des conventions rigides sur les niveaux de signification, etc.
Graphiques pour les modèles complexes. Les graphiques tacites sont ignorés chaque fois qu’il ne semble pas qu’il existe un graphique qui corresponde à un modèle complexe comportant de nombreux prédicteurs, etc., etc. (ce qui est en effet souvent difficile à décider).

Naturellement, ce que je suggère, c’est une différence de moyen, et je reconnais qu’il existe une grande variabilité dans les deux cas.

— Nick Cox
source

4

Contrairement à la plupart des autres disciplines quantitatives, les sciences économiques traitent de choses au sein de MARGIN. Il s’agit de l’utilité marginale, du taux marginal de substitution, etc. En termes de calcul, l’économie traite du "premier" (et des dérivés d’ordre supérieur).

De nombreuses disciplines statistiques traitent des quantités non dérivées telles que les moyennes et les variances. Bien sûr, vous pouvez entrer dans le domaine des distributions de probabilité marginale et conditionnelle, mais certaines de ces applications entrent également dans le domaine économique (par exemple, la "valeur attendue".)

— Tom Au
source

2

Ce n'est pas de l'économétrie, c'est du contexte. Si votre fonction de vraisemblance n’a pas d’optimum unique, elle concernera à la fois un statisticien et un économétrique. Maintenant, si vous proposez une hypothèse qui provient de la théorie économique et restreint la paramétrisation afin que le paramètre soit identifié, cela pourrait s'appeler économétrie, mais l'hypothèse pourrait provenir de n'importe quel domaine de fond.

L'exogénéité est une question philosophique. Voir par exemple http://andrewgelman.com/2009/07/disputes_about/ pour une comparaison des différents points de vue, où les économistes le comprennent généralement comme le fait Rubin.

En bref, adoptez le jargon utilisé par votre enseignant ou gardez l’esprit ouvert et lisez beaucoup.

— Alex
source

2

Les économétriciens s'intéressent presque exclusivement à l'inférence causale, tandis que les statisticiens utilisent également des modèles pour prédire les résultats. En conséquence, les économétriciens se concentrent davantage sur l'exogénéité (comme d'autres l'ont mentionné). Les économétriciens sous forme réduite et les économétriciens structurels interprètent différemment ces interprétations causales.

Les économétriciens sous forme réduite traitent souvent de l'exogénéité à l'aide de techniques de variables instrumentales (alors que IV est beaucoup moins utilisé par les statisticiens).

Les économétriciens des structures ont des interprétations causales des paramètres en s'appuyant sur une quantité de théorie rare dans les travaux des statisticiens.

— DanB
source

1

Les non-statisticiens utilisent beaucoup IV, et l'économétrie sous forme réduite utilise de nombreuses techniques d'inférence causale autres que la IV (diff-in-diff, discontinuité de régression, etc.). Voir cet article d'Imbens pour un rapprochement de l'économétrie IV avec les récents développements statistiques non économétriques de l'IV.

— Ari B. Friedman

2

En tant que statisticien, je pense à cela en termes plus généraux. Nous avons la biométrie et l'économétrie. Ce sont deux domaines dans lesquels les statistiques sont utilisées pour résoudre des problèmes. Avec la biométrie, nous traitons de problèmes biologiques / médicaux tandis que l'économétrie traite de l'économie. Autrement, elles seraient identiques sauf que différentes disciplines mettent l’accent sur des techniques statistiques différentes. En biométrie, les analyses de survie et de tableau de contingence sont largement utilisées. Pour l'économétrie, les séries chronologiques sont très utilisées. L'analyse de régression est commune aux deux. Après avoir vu les réponses aux différences de terminologie entre économatrie et biostatistique, il semble que la véritable question porte principalement sur la terminologie et que je n’ai vraiment abordé que les deux autres. Les réponses sont si bonnes que je ne peux rien y ajouter. J'ai particulièrement aimé les réponses de StasK. Mais en tant que biostatisticien, je pense que nous utilisons le modèle logit et le modèle logistique de manière interchangeable. Nous appelons log (p / [1-p]) la transformation logit.

— Michael Chernick
source

2

(+1) Vous pouvez ajouter des éléments psychométriques à la liste des applications de statistiques appliquées spécifiques à un domaine pour résoudre des problèmes spécifiques à un domaine.

— Andy W