La régression linéaire n'est pas le bon choix pour votre résultat, étant donné:
- La variable de résultat n'est pas normalement distribuée
- La variable de résultat étant limitée dans les valeurs qu'elle peut prendre (les données de comptage signifient que les valeurs prédites ne peuvent pas être négatives)
- Ce qui semble être une fréquence élevée de cas avec 0 visite
Modèles de variables dépendantes limitées pour les données de comptage
La stratégie d'estimation que vous pouvez choisir est dictée par la «structure» de votre variable de résultat. Autrement dit, si votre variable de résultat est limitée dans les valeurs qu'elle peut prendre (c'est-à-dire s'il s'agit d'une variable dépendante limitée ), vous devez choisir un modèle où les valeurs prédites se situeront dans la plage possible pour votre résultat. Bien que la régression linéaire soit parfois une bonne approximation pour des variables dépendantes limitées (par exemple, dans le cas de logit / probit binaire), ce n'est souvent pas le cas. Entrez les modèles linéaires généralisés . Dans votre cas, la variable de résultat étant des données de comptage, vous avez plusieurs choix:
- Modèle de Poisson
- Modèle binomial négatif
- Modèle Poisson Zéro Gonflé (ZIP)
- Modèle binomial négatif zéro gonflé (ZINB)
Le choix est généralement déterminé empiriquement. Je vais brièvement discuter du choix entre ces options ci-dessous.
Poisson vs binôme négatif
En général, Poisson est le modèle "générique de référence" des modèles de données à 4 chiffres que j'ai mentionnés ci-dessus. Une limitation du modèle est l'hypothèse que la variance conditionnelle = la moyenne conditionnelle, qui peut ne pas toujours être vraie. Si votre modèle est trop dispersé (variance conditionnelle> moyenne conditionnelle), vous devrez utiliser le modèle binomial négatif à la place. Heureusement, lorsque vous exécutez le binôme négatif, la sortie inclut généralement un test statistique pour le paramètre de dispersion (R appelle ce paramètre de dispersion "theta ( )", qui est appelé "alpha" dans d'autres packages). L'hypothèse nulle dans le choix entre Poisson vs Binôme négatif est: , tandis que l'hypothèse alternative est .H 0 : θ = 0 H 1 : θ ≠ 0 θθH0:θ=0H1:θ≠0θ est significatif, il y a des preuves de surdispersion dans le modèle, et vous choisiriez Binomial négatif sur Poisson. Si le coefficient n'est pas statistiquement significatif, présentez les résultats de Poisson.
ZIP contre ZINB
Une complication potentielle est l'inflation zéro, qui pourrait être un problème ici. C'est là qu'interviennent les modèles ZIP et ZINB gonflés à zéro. En utilisant ces modèles, vous supposez que le processus générant les valeurs nulles est distinct du processus générant les autres valeurs non nulles. Comme précédemment, ZINB est approprié lorsque le résultat a des zéros excessifs et est sur-dispersé, tandis que ZIP est approprié lorsque le résultat a des zéros excessifs mais moyenne conditionnelle = variance conditionnelle. Pour les modèles à gonflement nul, en plus des covariables de modèle que vous avez énumérées ci-dessus, vous devrez penser aux variables qui peuvent avoir généré les zéros en excès que vous avez vus dans le résultat. Encore une fois, il existe des tests statistiques fournis avec la sortie de ces modèles (parfois vous devrez peut-être les spécifier lorsque vous exécutez une commande) qui vous permettrontdécidez empiriquement quel modèle est le meilleur pour vos données. Il existe deux tests intéressants: le premier est le test du coefficient sur le paramètre de dispersion et le second est ce qu'on appelle le test Vuong, qui vous indique si les zéros en excès sont générés par un processus distinct (c'est-à-dire s'il existe est, en effet, une inflation nulle dans le résultat).θ
En comparant le choix entre ZIP et ZINB, vous regarderez à nouveau le test du paramètre de dispersion . Encore une fois, (ZIP est un meilleur ajustement) et (ZINB est un meilleur ajustement). Le test Vuong vous permet de prendre une décision entre Poisson vs ZIP ou NB vs ZINB. Pour le test Vuong, (Poisson / NB est un meilleur ajustement) et (ZIP / ZINB est un meilleur ajustement).H 0 : θ = 0θH0:θ=0H1:θ≠0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process
D'autres utilisateurs peuvent commenter le workflow "habituel", mais mon approche consiste à visualiser les données et à partir de là. Dans votre cas, je commencerais probablement par ZINB et exécuter à la fois le test sur le coefficient sur et le test Vuong, car c'est le test sur le coefficient sur qui vous dirait lequel était le meilleur entre ZIP et ZINB, et le Le test Vuong vous dirait si vous devez utiliser des modèles sans gonflage. θθ
Enfin, je n'utilise pas R, mais la page d'exemples d'analyse de données IDRE at UCLA peut vous guider dans l'ajustement de ces modèles.
[Modifier par un autre utilisateur sans assez de réputation pour commenter: cet article explique pourquoi vous ne devez pas utiliser le test Vuong pour comparer un modèle à inflation zéro et propose des alternatives.
P. Wilson, «L'utilisation abusive du test Vuong pour les modèles non imbriqués pour tester zéro inflation». Economics Letters, 2015, vol. 127, numéro C, 51-53 ]