Il y a quelques mois, j'ai effectué un stage dans cette organisation; et, comme cadeau de départ, j'ai décidé de passer ma dernière semaine, avec le temps libre dont je disposais, pour enquêter sur les facteurs qui affectent les salaires des enseignants. Un problème que j'ai rencontré avec les salaires des enseignants était que la distribution pour l'État donné était biaisée. J'ai eu beaucoup d'observations qui se sont accrochées à l'extrémité inférieure de l'échelle des salaires. J'ai essayé de résoudre ce problème en incorporant un indice de salaire comparable dans ma variable dépendante (le salaire des enseignants), mais les résultats que j'ai trouvés étaient complètement obsolètes pour la portée de mon projet. J'ai plutôt décidé d'enregistrer ma variable dépendante. C'était bien parce que maintenant mon salaire avait une distribution normale et il avait l'air parfait dans l'histogramme. Lorsque j'ai commencé à tester, je suis arrivé au point où il me restait une dernière variable indépendante, les déclarations de revenus fonciers. Le problème avec mon salaire normatif était également apparent dans mes observations de déclaration d'impôt foncier. J'avais une énorme asymétrie de numéros de déclaration de revenus fonciers vers l'extrémité inférieure du spectre. Donc, j'ai également enregistré cette variable et elle a tout de même réussi le test d'hypothèse nulle.
Je ne sais pas si c'est exactement correct, mais en comparant le changement d'une variable enregistrée à une autre variable enregistrée m'a donné l'élasticité. En supposant que cela est correct, mon équation de régression (quelque chose comme LogWages = B0 + B1 (LogPropertyTaxReturns)) montre l'élasticité entre les deux variables. Est-ce pourtant significatif? Si mon objectif était de voir quelle variable a le plus affecté les salaires des enseignants dans un comté donné de mon état, est-ce que montrer l'élasticité entre les deux variables est utile? Nous voulons augmenter les comtés avec les salaires des enseignants les plus bas pour augmenter leur niveau de vie, mais je crains d'avoir extrapolé si loin des vraies observations que mon équation de régression finale n'a aucun sens.
Edit: Une de mes plus grandes craintes est que j'aurais dû utiliser un modèle non linéaire pour montrer la relation. Je pense que forcer à la fois la variable dépendante et la variable indépendante à coopérer dans cette régression linéaire est trompeur d'une certaine manière.