Je suis un étudiant en économie avec une certaine expérience de l'économétrie et de R. J'aimerais savoir s'il existe une situation où nous devrions inclure une variable dans une régression alors qu'elle n'est pas statistiquement significative.
Je suis un étudiant en économie avec une certaine expérience de l'économétrie et de R. J'aimerais savoir s'il existe une situation où nous devrions inclure une variable dans une régression alors qu'elle n'est pas statistiquement significative.
Réponses:
Oui!
Qu'un coefficient soit statistiquement impossible à distinguer de zéro n'implique pas que le coefficient est en réalité égal à zéro, qu'il est sans importance. Le fait qu'un effet ne dépasse pas un seuil arbitraire de signification statistique n'implique pas qu'il ne faut pas tenter de le contrôler.
De manière générale, le problème à résoudre et la conception de votre recherche doivent indiquer les éléments à inclure en tant que régresseurs.
Et ne prenez pas cela comme une liste exhaustive. Il n'est pas difficile de trouver des tonnes de plus ...
Une situation dans laquelle cela se produit souvent est une régression avec des effets fixes .
Supposons que vous avez des données de panel et que vous souhaitez estimer dans le modèle:
L'estimation de ce modèle avec les moindres carrés ordinaires où sont traités comme des effets fixes revient à utiliser les moindres carrés ordinaires avec une variable indicatrice pour chaque individu i .
Quoi qu’il en soit, le fait est que les variables (c’est-à-dire les coefficients des variables indicatrices) sont souvent mal estimées. Tout effet individuel fixe u i est souvent statistiquement non significatif. Mais vous continuez d'inclure toutes les variables indicatrices dans la régression si vous prenez en compte les effets fixes.
(Notez en outre que la plupart des logiciels de statistiques ne vous donneront même pas les erreurs standard pour des effets fixes individuels lorsque vous utilisez les méthodes intégrées. Vous ne vous souciez pas vraiment de la signification des effets fixes individuels. Vous vous souciez probablement de leur signification collective. .)
Si vous adaptez un polynôme de degré à une courbe, vous incluez presque toujours des termes polynômes d'ordre inférieur.
Par exemple, si vous montez un polynôme de second ordre, vous exécuterez:
Habituellement, il serait assez bizarre de forcer et de lancer y i = b 0
mais les étudiants en mécanique newtonienne pourront imaginer des exceptions.
Supposons que vous estimiez un modèle AR (p) et que vous incluez également les termes d'ordre inférieur. Par exemple, pour un AR (2), vous exécutez:
Et ce serait bizarre de courir:
Comme @NickCox le mentionne, les termes et sin ont également tendance à aller de pair. Pour plus d'informations à ce sujet, voir par exemple ce document .
Vous souhaitez inclure des variables de droite lorsqu'il existe de bonnes raisons théoriques de le faire.
Et comme d'autres réponses ici et à travers StackExchange discutent, la sélection de variables par étapes peut créer de nombreux problèmes statistiques.
Il est également important de distinguer entre:
Dans ce dernier cas, il est problématique de dire que le coefficient n'a pas d'importance. Cela peut simplement être mal mesuré.
Oui il y en a. Toute variable pouvant être corrélée de manière significative avec votre variable de réponse, même à un niveau non significatif sur le plan statistique, pourrait perturber votre régression si elle n’est pas incluse. Cela s'appelle une sous-spécification et conduit à des estimations de paramètres qui ne sont pas aussi précises qu'elles le pourraient autrement.
https://onlinecourses.science.psu.edu/stat501/node/328
De ce qui précède:
Un modèle de régression est sous-spécifié (résultat 2) si une ou plusieurs variables prédictives importantes sont manquantes dans l'équation de régression. Cette situation est peut-être le pire des scénarios, car un modèle sous-spécifié génère des coefficients de régression biaisés et des prédictions biaisées de la réponse. Autrement dit, en utilisant le modèle, nous sous-estimions ou surestimions systématiquement les pentes et les moyennes de la population. Pour aggraver encore les choses, l’erreur quadratique moyenne moyenne a tendance à surestimer σ², donnant ainsi des intervalles de confiance plus larges que prévu.
Généralement, vous n'incluez ni n'excluez de variables pour la régression linéaire en raison de leur signification. Vous les incluez parce que vous supposez que les variables sélectionnées sont de (bons) prédicteurs des critères de régression. En d'autres termes, la sélection de prédicteur est basée sur la théorie.
L’insignifiance statistique dans la régression linéaire peut signifier deux choses (dont je sais):
Une raison valable pour exclure les prédicteurs non significatifs est que vous recherchez le plus petit sous-ensemble de prédicteurs expliquant la variance des critères ou la majeure partie de celle-ci. Si vous l'avez trouvé, vérifiez votre théorie.
En économétrie, cela se produit à gauche et à droite. Par exemple, si vous utilisez les variables trimestrielles de saisonnalité Q2, Q3 et Q4, il arrive souvent qu’en tant que groupe, elles soient significatives, mais certaines d’entre elles ne le sont pas individuellement. Dans ce cas, vous les conservez généralement.
MISE À JOUR: Un autre exemple courant est la prévision. L'économétrie est généralement enseignée du point de vue de l'inférence dans les départements d'économie. Dans la perspective des déductions, beaucoup d’attention est portée sur les valeurs prédictives et leur importance, car vous essayez de comprendre ce qui cause quoi et ainsi de suite. Dans les prévisions, on ne met pas beaucoup l'accent sur ce genre de choses, car tout ce qui compte pour vous, c'est de voir dans quelle mesure le modèle peut prévoir la variable d'intérêt.
Ceci est similaire aux applications d’apprentissage automatique, qui se frayent récemment un chemin dans l’économie. Vous pouvez avoir un modèle avec toutes les variables significatives qui ne prévoient pas bien. En ML, il est souvent associé à ce que l'on appelle "un ajustement excessif". De toute évidence, un tel modèle est très peu utilisé dans les prévisions.
Vous posez deux questions différentes:
Modifier: cela était vrai pour le message d'origine, mais pourrait ne plus l'être après les modifications.
En ce qui concerne Q1, je pense que c'est à la limite d'être trop large. Il y a beaucoup de réponses possibles, certaines déjà fournies. Un autre exemple concerne la construction de modèles de prévision (voir la source citée ci-dessous pour une explication).
En ce qui concerne la Q2, la signification statistique n'est pas un critère valable pour la construction d'un modèle. Rob J. Hyndman écrit ce qui suit dans son billet de blog "Tests statistiques pour la sélection de variables" :
La signification statistique ne constitue généralement pas une bonne base pour déterminer si une variable doit être incluse dans un modèle, malgré le fait que beaucoup de personnes qui devraient savoir mieux les utilisent à cette fin. <...> Les tests statistiques ont été conçus pour tester des hypothèses et non pour sélectionner des variables.
Notez également que vous pouvez souvent trouver certaines variables qui sont statistiquement significatives uniquement par hasard (le hasard étant contrôlé par votre choix du niveau de signification). L'observation qu'une variable est statistiquement significative ne suffit pas pour conclure que la variable appartient au modèle.
Je vais ajouter un autre "oui". On m'a toujours enseigné - et j'ai essayé de le transmettre - que la considération primordiale dans le choix d'une covariable est la connaissance du domaine, pas les statistiques. En biostatistique, par exemple, si je modélise des résultats pour la santé d’individus, peu importe ce que que dit la régression, vous aurez besoin de sacrément de bons arguments pour ne pas inclure l'âge, la race et le sexe dans le modèle.
Cela dépend aussi du but de votre modèle. Si l'objectif est de mieux comprendre les facteurs les plus associés à vos résultats, la construction d'un modèle parcimonieux a certaines vertus. Si vous vous souciez de la prédiction et pas tant de la compréhension, éliminer les covariables peut alors être une préoccupation moins importante.
(Enfin, si vous prévoyez d'utiliser des statistiques pour la sélection de variables, consultez ce que Frank Harrell a à dire sur le sujet: http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ et son livre intitulé Regression Modeling Strategies (Stratégies de modélisation de la régression) . En résumé, au moment où vous utilisiez des stratégies pas à pas ou des stratégies similaires, basées sur des statistiques, pour choisir les meilleurs prédicteurs, tous les tests de type "sont-ils de bons prédicteurs?" sont terriblement biaisés - bien sûr, ils ' En tant que bons prédicteurs, vous les avez choisis sur cette base et les valeurs p de ces prédicteurs sont faussement basses.)
La seule chose que le résultat de "l'insignifiance statistique" indique vraiment est que, au niveau sélectionné d'erreur de type I, nous ne pouvons même pas dire si l'effet du régresseur sur la variable dépendante est positif ou négatif (voir cet article).
Donc, si nous conservons ce régresseur, toute discussion sur son propre effet sur la variable dépendante ne dispose d'aucune preuve statistique à l'appui.
Mais cet échec de l'estimation ne dit pas que le régresseur n'appartient pas à la relation structurelle, il indique seulement qu'avec l'ensemble de données spécifique, nous n'avons pas pu déterminer avec une certaine certitude le signe de son coefficient.
Donc, en principe, si des arguments théoriques soutiennent sa présence, le régresseur doit être conservé.
D'autres réponses fournies ici ont fourni des modèles / situations spécifiques pour lesquels de tels régresseurs sont conservés dans la spécification, par exemple la réponse mentionnant le modèle de données du panneau à effets fixes.
Vous pouvez inclure une variable d'intérêt particulier si elle fait l'objet d'une recherche, même si elle n'est pas statistiquement significative. De plus, en biostatistique, la signification clinique est souvent différente de la signification statistique.