Je suis perplexe devant votre question. Je sais que vous dites que vous comprenez les effets fixes et les effets aléatoires, mais peut-être que vous ne les comprenez pas de la même manière que moi. J'ai posté un extrait plutôt étendu d'un sous presse chapitre de livre ici ce qui explique mon avis (plutôt pragmatique, assez aligné en étroite collaboration avec Andrew Gelman).
Répondre plus directement à la question:
- il (OMI) n'a aucun sens d'inclure les principaux effets des variables socio-économiques telles que le revenu comme aléatoires. Si vous aviez plus d'une mesure du revenu par individu, vous pouvez inclure l'individu comme variable de regroupement et permettre aux effets du revenu sur la réponse (quelle qu'elle soit) de varier d'un individu à l'autre.
- La race semble avoir le plus de sens en tant qu'effet fixe, et il est peu probable que vous puissiez mesurer un individu sous les effets de plus d'une race, mais vous pourriez (par exemple) caractériser la variation aléatoire des effets de race à travers différents pays. Vous pouvez le traiter comme un effet aléatoire (c'est-à-dire que les différences de modèle entre les races sont tirées d'une distribution normale), mais il est probable que cela ne soit pas pratique car vous n'aurez probablement pas assez de races différentes dans votre ensemble de données, et ce serait difficile pour moi de trouver un bon argument conceptuel pour cela non plus ...
- «zone de vie» a un sens en tant que variable de regroupement, ce qui pourrait certainement être un effet aléatoire raisonnable (c'est-à-dire que l'interception varierait selon les zones de vie). L'individu serait probablement imbriqué dans la zone, à moins que les individus ne se déplacent entre les zones sur l'échelle de temps de votre étude.
- votre situation semble être un cas où vous avez des variations aléatoires entre les individus, mais vous avez également des covariables au niveau individuel. L'ajout de ces covariables au niveau individuel (race, revenu, etc.) au modèle expliquera une partie de la variabilité entre les individus (et c'est probablement une bonne idée).
Cela peut ajouter de la clarté pour distinguer les variables de regroupement (qui doivent être catégoriques), qui représentent les groupes à travers lesquels les choses varient et les effets , qui sont les différences de certains paramètres / effets (généralement l'ordonnée à l'origine, mais pourraient être les effets du revenu / éducation / autre) à tous les niveaux de certaines variables de regroupement.
mise à jour : je me permettrai de donner un contrepoint à votre
Ma compréhension des effets aléatoires: facteurs choisis au hasard dans une population;
- Cela dépend peut-être de votre vision philosophique. Ceci est requis dans le paradigme fréquentiste classique, mais je l'assouplirais un peu en demandant s'il est raisonnable de traiter les effets comme étant des tirages aléatoires d'une population hypothétique. (Les exemples classiques ici sont (1) un échantillonnage exhaustif (et si vous avez des mesures pour chaque quartier de la ville, ou chaque région / province / état d'un pays? Pouvez-vous toujours les traiter comme des tirages aléatoires d'une superpopulation? Et (2 ) périodes de temps mesuré de façon séquentielle (par exemple des années 2002-2012). Dans ces deux cas , je dirais que cela fait pragmatique logique de les modéliser en utilisant des effets aléatoires.)
les niveaux du facteur présentent peu d'intérêt;
- pas nécessairement. Je ne pense pas que l'idée selon laquelle les effets aléatoires doivent être des variables gênantes tient dans la pratique. Par exemple, dans les analyses d'élevage, on peut être très intéressé à connaître la valeur d'élevage (BLUP) d'un animal particulier. (Le soi-disant niveau de concentration a certaines implications sur la façon dont on compare les modèles.)
les variables sont des facteurs non observés.
Je ne sais pas ce que cela signifie. Vous savez de quel quartier provient chaque observation, non? Comment est-ce "inobservé"? (Si vous soupçonniez le regroupement de vos données sur la base de facteurs non observés , vous devez adapter un modèle de mélange discret .) Si vous voulez dire que vous ne savez pas pourquoi les quartiers sont différents, je ne pense pas que cela importe ici.
Prenons l'exemple du quartier. C'est ma variable d'intérêt principal, les niveaux sont importants. J'utilise des modèles mixtes et vérifie qu'il y a beaucoup de variance en son sein.
La seule raison pour laquelle je peux penser à ne pas utiliser le quartier comme effet aléatoire serait si vous n'aviez mesuré qu'un petit nombre (disons <6) de quartiers.