Hypothèses du modèle linéaire généralisé

J'ai créé un modèle linéaire généralisé avec une seule variable de réponse (continue / normalement distribuée) et 4 variables explicatives (dont 3 sont des facteurs et la quatrième est un entier). J'ai utilisé une distribution d'erreur gaussienne avec une fonction de lien d'identité. Je vérifie actuellement que le modèle satisfait aux hypothèses du modèle linéaire généralisé qui sont:

indépendance de Y
fonction de liaison correcte
échelle de mesure correcte des variables explicatives
aucune observation influente

Ma question est: comment puis-je vérifier que le modèle satisfait ces hypothèses? Le meilleur point de départ semble être de tracer la variable de réponse par rapport à chaque variable explicative. Cependant, 3 des variables explicatives sont catégoriques (avec 1-4 niveaux), alors que dois-je rechercher dans les graphiques?

De plus, dois-je vérifier la multicolinéarité et les interactions entre les variables explicatives? Si oui, comment dois-je procéder avec des variables explicatives catégoriques?

— luciano
source

Je pense qu'essayer de considérer cela comme un modèle linéaire généralisé est exagéré. Ce que vous avez est un ancien modèle de régression simple. Plus précisément, parce que vous avez des variables explicatives catégoriques et un EV continu, mais aucune interaction entre elles, cela pourrait aussi être appelé une ANCOVA classique.

Je dirais que # 3 n'est pas vraiment une hypothèse dont vous devez vous inquiéter. D'ailleurs, vous n'avez pas vraiment besoin de vous soucier du # 2. Au lieu de cela, je les remplacerais par deux hypothèses différentes:

2 '. Homogénéité de la variance
3 '. Normalité des résidus

De plus, le n ° 4 est une chose importante à vérifier, mais je n'y pense pas vraiment comme une hypothèse en soi. Réfléchissons à la façon dont les hypothèses peuvent être vérifiées.

L'indépendance est souvent «vérifiée» tout d'abord en réfléchissant à la signification des données et à la manière dont elles ont été collectées. De plus, il peut être vérifié en utilisant des choses comme un test de fonctionnement , un test de Durbin-Watson ou en examinant le modèle des autocorrélations - vous pouvez également examiner les autocorrélations partielles . (Notez que ceux-ci ne peuvent être évalués que par rapport à votre covariable continue.)

Avec des variables explicatives principalement catégoriques, l' homogénéité de la variance peut être vérifiée en calculant la variance à chaque niveau de vos facteurs. Après avoir calculé ces derniers, plusieurs tests sont utilisés pour vérifier s'ils sont à peu près les mêmes, principalement le test de Levene , mais aussi le test de Brown-Forsyth . Le test , également appelé test de Hartley, n'est pas recommandé; si vous souhaitez un peu plus d'informations à ce sujet, j'en parle ici $F_{max}$ . (Notez que ces tests peuvent être appliqués à vos covariables catégorielles contrairement à ci-dessus.) Pour un EV continu, j'aime simplement tracer mes résidus par rapport à la covariable continue et les examiner visuellement pour voir s'ils se propagent plus loin d'un côté ou de l'autre.

La normalité des résidus peut être évaluée via certains tests, comme les tests de Shapiro-Wilk ou de Kolmogorov-Smirnov , mais est souvent mieux évaluée visuellement via un tracé qq . (Notez que cette hypothèse est généralement la moins importante de l'ensemble; si elle n'est pas remplie, vos estimations bêta seront toujours non biaisées , mais vos valeurs de p seront inexactes.)

Il existe plusieurs façons d'évaluer l' influence de vos observations individuelles. Il est possible d'obtenir des valeurs numériques qui indexent cela, mais ma façon préférée, si vous pouvez le faire, est de jackknife vos données. Autrement dit, vous supprimez chaque point de données à tour de rôle et réajustez votre modèle. Ensuite, vous pouvez examiner combien vos bêtas rebondissent si cette observation ne faisait pas partie de votre ensemble de données. Cette mesure est appelée dfbeta . Cela nécessite un peu de programmation, mais le logiciel peut souvent calculer automatiquement pour vous. Il s'agit notamment de l' effet de levier et de la distance de Cook .

$Y$

Concernant la "bonne échelle de mesure des variables explicatives", je vous prends pour faire référence aux niveaux de mesure de Steven (c.-à-d. Catégorique, ordinale, intervalle et rapport). La première chose à réaliser est que les méthodes de régression (y compris les GLiM) ne font pas d' hypothèses sur les variables explicatives, mais la manière dont vous utilisez vos variables explicatives dans votre modèle reflète vos croyances à leur sujet. De plus, j'ai tendance à penser que les niveaux de Steven sont surestimés; pour un traitement plus théorique de ce sujet, voir ici .

— gung - Réintégrer Monica
source

Étant donné que l'Op comprenait une fonction de lien, je pense qu'il voulait vraiment dire un modèle linéaire généralisé où une fonction de lien est appliquée à Y. Je qualifierais également l'indépendance de Y d'hypothèse. Je pense que l'hypothèse est plus juste que les composantes d'erreur du modèle sont indépendantes. Étant donné que je pense que le reste de ce que Gung a écrit est correct.

— Michael R. Chernick

@MichaelChernick, je suis d'accord avec vous. J'ai un peu modifié ma réponse pour résoudre ces problèmes. Faites-moi savoir si vous pensez qu'il a encore besoin de plus de travail.

— gung - Rétablir Monica