J'ai peur d'avoir la réponse nuancée et peut-être insatisfaisante qu'il s'agit d'un choix subjectif du chercheur ou de l'analyste de données. Comme mentionné ailleurs dans ce fil, il ne suffit pas de simplement dire que les données ont une "structure imbriquée". Pour être juste, cependant, c'est le nombre de livres qui décrivent quand utiliser des modèles à plusieurs niveaux. Par exemple, je viens de retirer le livre Multilevel Analysis de Joop Hox de ma bibliothèque, ce qui donne cette définition:
Un problème à plusieurs niveaux concerne une population à structure hiérarchique.
Même dans un très bon manuel, la définition initiale semble être circulaire. Je pense que cela est en partie dû à la subjectivité de déterminer quand utiliser quel type de modèle (y compris un modèle à plusieurs niveaux).
Un autre livre, West, Welch, & Galecki's Linear Mixed Models, dit que ces modèles sont pour:
variables de résultat dans lesquelles les résidus sont normalement distribués mais peuvent ne pas être indépendants ou avoir une variance constante. Les plans d'études menant à des ensembles de données qui peuvent être analysés de manière appropriée à l'aide de LMM comprennent (1) des études avec des données en grappes, telles que les élèves en classe, ou des plans expérimentaux avec des blocs aléatoires, tels que des lots de matières premières pour un processus industriel, et (2) études longitudinales ou à mesures répétées, dans lesquelles les sujets sont mesurés de manière répétée dans le temps ou dans différentes conditions.
Finch, Bolin, & Kelley Multilevel Modeling in R parle également de la violation de l'hypothèse iid et des résidus corrélés:
L'hypothèse [dans la régression standard] de termes d'erreur distribués indépendamment pour les observations individuelles dans un échantillon est particulièrement importante dans le contexte de la modélisation à plusieurs niveaux. Cette hypothèse signifie essentiellement qu'il n'y a pas de relations entre les individus de l'échantillon pour la variable dépendante une fois que les variables indépendantes de l'analyse sont prises en compte.
Je pense qu'un modèle à plusieurs niveaux a du sens lorsqu'il y a lieu de croire que les observations ne sont pas nécessairement indépendantes les unes des autres. Quel que soit le «cluster» qui explique cette non-indépendance, on peut le modéliser.
Un exemple évident serait les enfants dans les salles de classe - ils interagissent tous les uns avec les autres, ce qui pourrait conduire à ce que leurs résultats aux tests ne soient pas indépendants. Que se passe-t-il si une classe a quelqu'un qui pose une question qui conduit à ce que le matériel soit couvert dans cette classe qui ne l'est pas dans d'autres classes? Et si l'enseignant est plus éveillé pour certaines classes que pour d'autres? Dans ce cas, il y aurait une certaine non-indépendance des données; en termes multiniveaux, nous pourrions nous attendre à ce qu'une certaine variance de la variable dépendante soit due à la grappe (c.-à-d. la classe).
Votre exemple d'un chien contre un éléphant dépend des variables d'intérêt indépendantes et dépendantes, je pense. Par exemple, disons que nous demandons s'il y a un effet de la caféine sur le niveau d'activité. Les animaux de partout dans le zoo sont assignés au hasard pour obtenir une boisson contenant de la caféine ou une boisson témoin.
Si nous sommes un chercheur qui s'intéresse à la caféine, nous pourrions spécifier un modèle à plusieurs niveaux, car nous nous soucions vraiment de l'effet de la caféine. Ce modèle serait spécifié comme suit:
activity ~ condition + (1+condition|species)
Cela est particulièrement utile s'il existe un grand nombre d'espèces sur lesquelles nous testons cette hypothèse. Cependant, un chercheur pourrait être intéressé par les effets spécifiques à l'espèce de la caféine. Dans ce cas, ils pourraient spécifier les espèces comme un effet fixe:
activity ~ condition + species + condition*species
C'est évidemment un problème s'il y a, disons, 30 espèces, créant une conception 2 x 30 peu maniable. Cependant, vous pouvez devenir assez créatif avec la façon dont on modélise ces relations.
Par exemple, certains chercheurs plaident pour une utilisation encore plus large de la modélisation à plusieurs niveaux. Gelman, Hill et Yajima (2012) soutiennent que la modélisation à plusieurs niveaux pourrait être utilisée comme correction pour des comparaisons multiples, même dans la recherche expérimentale où la structure des données n'est pas de nature évidemment hiérarchique:
Des problèmes plus difficiles se posent lors de la modélisation de comparaisons multiples qui ont plus de structure. Par exemple, supposons que nous ayons cinq mesures de résultats, trois variétés de traitements et des sous-groupes classés par deux sexes et quatre groupes raciaux. Nous ne voudrions pas modéliser cette structure 2 × 3 × 4 × 5 en 120 groupes échangeables. Même dans ces situations plus complexes, nous pensons que la modélisation à plusieurs niveaux devrait et finira par remplacer les procédures classiques de comparaisons multiples.
Les problèmes peuvent être modélisés de diverses manières et, dans des cas ambigus, plusieurs approches peuvent sembler attrayantes. Je pense que notre travail consiste à choisir une approche raisonnable et informée et à le faire de manière transparente.