Je me réfère à ce post qui semble remettre en question l'importance de la distribution normale des résidus, en faisant valoir que cela, ainsi que l'hétéroskédasticité, pourraient potentiellement être évités en utilisant des erreurs standard robustes.
J'ai envisagé diverses transformations - racines, journaux, etc. - et tout se révèle inutile pour résoudre complètement le problème.
Voici un tracé QQ de mes résidus:
Les données
- Variable dépendante: déjà avec transformation logarithmique (corrige les problèmes aberrants et un problème d'asymétrie dans ces données)
- Variables indépendantes: âge de l'entreprise, et un certain nombre de variables binaires (indicateurs) (Plus tard, j'ai quelques chiffres, pour une régression séparée en tant que variables indépendantes)
La iqr
commande (Hamilton) dans Stata ne détermine pas de valeurs aberrantes graves qui excluent la normalité, mais le graphique ci-dessous suggère le contraire, tout comme le test de Shapiro-Wilk.
qenv
package.