J'ai rencontré l'ANOVA pour la première fois lorsque j'étais étudiant à la maîtrise à Oxford en 1978. Les approches modernes, en enseignant ensemble des variables continues et catégorielles dans le modèle de régression multiple, rendent difficile pour les jeunes statisticiens de comprendre ce qui se passe. Il peut donc être utile de revenir à des temps plus simples.
Dans sa forme originale, l'ANOVA est un exercice d'arithmétique par lequel vous divisez la somme totale des carrés en morceaux associés aux traitements, blocs, interactions, etc. Dans un cadre équilibré, des sommes de carrés avec une signification intuitive (comme SSB et SST) s'ajoutent à la somme totale ajustée des carrés. Tout cela fonctionne grâce au théorème de Cochran . En utilisant Cochran, vous pouvez calculer les valeurs attendues de ces termes sous les hypothèses nulles habituelles, et les statistiques F en découlent.
En prime, une fois que vous commencez à penser à Cochran et aux sommes de carrés, il est logique de continuer à trancher et à découper vos sommes de traitement de carrés en utilisant des contrastes orthogonaux. Chaque entrée dans le tableau ANOVA doit avoir une interprétation intéressante pour le statisticien et produire une hypothèse vérifiable.
J'ai récemment écrit un réponse où la différence entre les méthodes MOM et ML est apparue. La question portait sur l'estimation des modèles à effets aléatoires. À ce stade, l'approche ANOVA traditionnelle sépare totalement l'entreprise avec une estimation du maximum de vraisemblance, et les estimations des effets ne sont plus les mêmes. Lorsque la conception est déséquilibrée, vous n'obtenez pas non plus les mêmes statistiques F.
σ2pσ2σ2+ n σ2pnσ2b^. L'ANOVA fournit une méthode d'estimation des moments pour la variance à effet aléatoire. Maintenant, nous avons tendance à résoudre ces problèmes avec des modèles à effets mixtes et les composantes de la variance sont obtenues par une estimation du maximum de vraisemblance ou REML.
L'ANOVA en tant que telle n'est pas une méthode de procédure de moments. Il s'agit de diviser la somme des carrés (ou plus généralement, une forme quadratique de la réponse) en composants qui produisent des hypothèses significatives. Cela dépend fortement de la normalité car nous voulons que les sommes des carrés aient des distributions khi-deux pour que les tests F fonctionnent.
Le cadre du maximum de vraisemblance est plus général et s'applique à des situations comme les modèles linéaires généralisés où les sommes des carrés ne s'appliquent pas. Certains logiciels (comme R) invitent à la confusion en spécifiant les méthodes anova aux tests de rapport de vraisemblance avec des distributions asymptotiques de chi carré. On peut justifier l'utilisation du terme "anova", mais à proprement parler, la théorie sous-jacente est différente.