J'ai une question qui, je pense, sera assez basique pour beaucoup d'utilisateurs.
J'utilise des modèles de régression linéaire pour (i) étudier la relation entre plusieurs variables explicatives et ma variable de réponse et (ii) prédire ma variable de réponse en utilisant les variables explicatives.
Une variable explicative particulière X semble avoir un impact significatif sur ma variable de réponse. Afin de tester la valeur ajoutée de cette variable explicative X aux fins des prévisions hors échantillon de ma variable de réponse, j'ai utilisé deux modèles: le modèle (a) qui a utilisé toutes les variables explicatives et le modèle (b) qui a utilisé toutes les variables sauf variable X. Pour les deux modèles, je signale uniquement les performances hors échantillon. Il semble que les deux modèles fonctionnent presque à l'identique comme bons. En d'autres termes, l'ajout de la variable explicative X n'améliore pas les prévisions hors échantillon. Notez que j'ai également utilisé le modèle (a), c'est-à-dire le modèle avec toutes les variables explicatives, pour constater que la variable explicative X a un impact significatif sur ma variable de réponse.
Ma question est maintenant: comment interpréter cette conclusion? La conclusion directe est que, même si la variable X semble influencer de manière significative ma variable de réponse à l'aide de modèles inférentiels, elle n'améliore pas les prédictions hors échantillon. Cependant, j'ai du mal à expliquer davantage cette conclusion. Comment cela est-il possible et quelles sont les explications de ce résultat?
Merci d'avance!
Informations supplémentaires: avec «influence significative», je veux dire que 0 n'est pas inclus dans l'intervalle de densité postérieure le plus élevé à 95% de l'estimation des paramètres (im en utilisant une approche bayésienne). En termes fréquentistes, cela correspond à peu près à une valeur de p inférieure à 0,05. J'utilise uniquement des priors diffus (non informatifs) pour tous les paramètres de mes modèles. Mes données ont une structure longitudinale et contiennent environ 7 000 observations au total. Pour les prévisions hors échantillon, j'ai utilisé 90% des données pour ajuster mes modèles et 10% des données pour évaluer les modèles en utilisant plusieurs réplications. C'est-à-dire que j'ai effectué le fractionnement du test de train plusieurs fois et finalement j'ai rendu compte des mesures de performances moyennes.