Je pense qu'essayer de considérer cela comme un modèle linéaire généralisé est exagéré. Ce que vous avez est un ancien modèle de régression simple. Plus précisément, parce que vous avez des variables explicatives catégoriques et un EV continu, mais aucune interaction entre elles, cela pourrait aussi être appelé une ANCOVA classique.
Je dirais que # 3 n'est pas vraiment une hypothèse dont vous devez vous inquiéter. D'ailleurs, vous n'avez pas vraiment besoin de vous soucier du # 2. Au lieu de cela, je les remplacerais par deux hypothèses différentes:
2 '. Homogénéité de la variance
3 '. Normalité des résidus
De plus, le n ° 4 est une chose importante à vérifier, mais je n'y pense pas vraiment comme une hypothèse en soi. Réfléchissons à la façon dont les hypothèses peuvent être vérifiées.
L'indépendance est souvent «vérifiée» tout d'abord en réfléchissant à la signification des données et à la manière dont elles ont été collectées. De plus, il peut être vérifié en utilisant des choses comme un test de fonctionnement , un test de Durbin-Watson ou en examinant le modèle des autocorrélations - vous pouvez également examiner les autocorrélations partielles . (Notez que ceux-ci ne peuvent être évalués que par rapport à votre covariable continue.)
Avec des variables explicatives principalement catégoriques, l' homogénéité de la variance peut être vérifiée en calculant la variance à chaque niveau de vos facteurs. Après avoir calculé ces derniers, plusieurs tests sont utilisés pour vérifier s'ils sont à peu près les mêmes, principalement le test de Levene , mais aussi le test de Brown-Forsyth . Le test , également appelé test de Hartley, n'est pas recommandé; si vous souhaitez un peu plus d'informations à ce sujet, j'en parle iciFm a x. (Notez que ces tests peuvent être appliqués à vos covariables catégorielles contrairement à ci-dessus.) Pour un EV continu, j'aime simplement tracer mes résidus par rapport à la covariable continue et les examiner visuellement pour voir s'ils se propagent plus loin d'un côté ou de l'autre.
La normalité des résidus peut être évaluée via certains tests, comme les tests de Shapiro-Wilk ou de Kolmogorov-Smirnov , mais est souvent mieux évaluée visuellement via un tracé qq . (Notez que cette hypothèse est généralement la moins importante de l'ensemble; si elle n'est pas remplie, vos estimations bêta seront toujours non biaisées , mais vos valeurs de p seront inexactes.)
Il existe plusieurs façons d'évaluer l' influence de vos observations individuelles. Il est possible d'obtenir des valeurs numériques qui indexent cela, mais ma façon préférée, si vous pouvez le faire, est de jackknife vos données. Autrement dit, vous supprimez chaque point de données à tour de rôle et réajustez votre modèle. Ensuite, vous pouvez examiner combien vos bêtas rebondissent si cette observation ne faisait pas partie de votre ensemble de données. Cette mesure est appelée dfbeta . Cela nécessite un peu de programmation, mais le logiciel peut souvent calculer automatiquement pour vous. Il s'agit notamment de l' effet de levier et de la distance de Cook .
Oui
Concernant la "bonne échelle de mesure des variables explicatives", je vous prends pour faire référence aux niveaux de mesure de Steven (c.-à-d. Catégorique, ordinale, intervalle et rapport). La première chose à réaliser est que les méthodes de régression (y compris les GLiM) ne font pas d' hypothèses sur les variables explicatives, mais la manière dont vous utilisez vos variables explicatives dans votre modèle reflète vos croyances à leur sujet. De plus, j'ai tendance à penser que les niveaux de Steven sont surestimés; pour un traitement plus théorique de ce sujet, voir ici .