Utiliser ou non un décalage dans une régression de Poisson pour prédire le nombre total de buts en carrière marqués par des joueurs de hockey


10

J'ai une question concernant l'utilisation ou non d'un décalage. Supposons un modèle très simple, où vous voulez décrire le nombre (global) de buts au hockey. Vous avez donc des buts, un nombre de parties jouées et une variable factice "attaquant" qui est égale à 1 si le joueur est attaquant et 0 sinon. Alors, lequel des modèles suivants est correctement spécifié?

  1. buts = matchs + attaquant, ou

  2. buts = décalage (jeux) + attaquant

Encore une fois, les buts sont des buts globaux et le nombre de matchs sont des matchs globaux pour un seul joueur. Par exemple, il pourrait y avoir un joueur ramassé qui a 50 buts en 100 matchs et un autre joueur qui a 20 buts en 50 matchs et ainsi de suite.

Que dois-je faire lorsque je souhaite estimer le nombre d'objectifs? Faut-il vraiment utiliser un offset ici?

Références:


Quelle est votre variable dépendante? Est-ce le nombre total de buts dans une carrière à ce jour pour un joueur spécifique? De plus, y a-t-il une raison pour laquelle vous ne voulez pas prédire les objectifs moyens par match?
Jeromy Anglim

Oui, c'est le nombre total de buts! Non, je n'ai pas les données pour chaque match. J'ai juste les données globales.
MarkDollar

La variable dépendante est (nombre) d'objectifs. (Voir les équations ci-dessus)
MarkDollar

J'ai légèrement modifié le titre pour qu'il ne soit pas un double de la question précédente. N'hésitez pas à modifier si j'ai mal interprété.
Jeromy Anglim

Réponses:


16

Un modèle de décalage modélise les objectifs par match, comme on peut le voir ici:

log(goals/games) = a+bx

est équivalent à

log(goals) -log(games) = a+bx

est équivalent à

log(goals)= a+bx +log(games)   <-this is an offset model, assumes coef on the last term =1

Voir la diapositive 35 ici: http://www.ed.uiuc.edu/courses/EdPsy490AT/lectures/4glm3-ha-online.pdf

Si vous pensez qu'un a + bx est lié au rapport de log des buts aux jeux (le taux), utilisez un décalage. Si vous pensez qu'il y a un effet de jeu plus compliqué, peut-être de l'accumulation d'expérience, ne le faites pas. Pour plus de discussion, voir ceci: http://ezinearticles.com/?The-Exposure-and-Offset-Variables-in-Poisson-Regression-Models&id=2155811


1

Quelques points simples ne répondant pas directement à votre question sur les compensations:

  • J'aimerais voir si le nombre de matchs est corrélé avec les buts marqués. Dans de nombreux sports de pointage d'élite auxquels je peux penser (par exemple, le football, le football australien, etc.), je prédis que la longévité d'une carrière est liée au succès d'une carrière. Et au moins pour les joueurs dans les rôles de buteur, le succès est lié au nombre de buts marqués. Si cela est vrai, le nombre de jeux capturerait deux effets. L'une serait liée au simple fait que plus de matchs joués signifient plus d'occasions de marquer des buts; et l'autre capturerait les effets liés aux compétences. Vous pouvez examiner la relation entre le nombre de matchs et les buts moyens marqués (par exemple, buts / nombre de matchs) pour l'explorer. Je pense que cela a des implications importantes pour toute modélisation que vous faites.
  • Mon instinct est de convertir la variable dépendante en objectifs moyens par match. Je me rends compte que vous auriez une mesure plus précise des compétences d'un joueur pour ceux qui ont joué plus de jeux, alors peut-être que ce serait un problème. En fonction de la précision de votre modèle que vous désirez et de la distribution des moyens de lecture qui en résulte, vous pourrez peut-être vous fier à des techniques de modélisation linéaire standard. Mais c'est peut-être un peu trop appliqué à vos fins, et vous avez peut-être des raisons de vouloir modéliser le total des buts marqués.

Bonjour Jeromy! Ce que vous décrivez est absolument correct. Mais il n'y a aucun moyen de créer un modèle qui mesure les objectifs / jeux. Je suis donc contraint au modèle ci-dessus (les buts comme dépendants et les jeux comme variable indépendante). Je sais que les jeux sont corrélés avec des choses comme les compétences et que je dois explorer ce problème (problème des variables omises et endogénéité). Mais pour le moment, je me demande lequel des deux modèles ci-dessus devrait être utilisé!
MarkDollar
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.