Voici quelques modèles très simples . Ils sont tous les deux déficients au moins d'une manière, mais peut-être qu'ils fourniront quelque chose sur lequel s'appuyer. Le deuxième modèle ne traite pas (tout à fait) le scénario du PO (voir les remarques ci-dessous), mais je le laisse au cas où cela aiderait en quelque sorte.
Modèle 1 : une variante du modèle Bradley-Terry
Supposons que nous voulons avant tout prédire si une équipe en battra une autre en fonction des joueurs de chaque équipe. Nous pouvons simplement enregistrer si l'équipe 1 avec les joueurs bat l'équipe 2 avec les joueurs ( k , ℓ ) pour chaque match, en ignorant le score final. Certes, cela jette des informations, mais dans de nombreux cas, cela fournit encore beaucoup d'informations.( i , j )( k , ℓ )
Le modèle est alors
l o g i t ( P (l'équipe 1 bat l'équipe 2))= αje+ αj- αk- αℓ.
Autrement dit, nous avons un paramètre "d'affinité" pour chaque joueur qui affecte dans quelle mesure ce joueur améliore les chances de gagner de son équipe. Définissez la "force" du joueur par . Ensuite, ce modèle affirme que
P (l' équipe 1 bat l'équipe 2 ) = s i s jsje= eαje
P (l'équipe 1 bat l'équipe 2)= sjesjsjesj+ sksℓ.
Il y a une symétrie très sympa ici dans la mesure où la réponse est codée tant qu'elle est cohérente avec les prédicteurs. Autrement dit, nous avons également
l o g i t ( P (l'équipe 2 bat l'équipe 1))= αk+ αℓ- αje- αj.
Cela peut être facilement ajusté comme une régression logistique avec des prédicteurs qui sont des indicateurs (un pour chaque joueur) prenant une valeur si le joueur i est dans l'équipe 1 pour le jeu en question, - 1 si elle est dans l'équipe 2 et 0 si elle ne le fait pas. participer à ce jeu.+ 1je- 10
De cela, nous avons également un classement naturel pour les joueurs. Plus le (ou s ) est grand, plus le joueur améliore les chances de victoire de son équipe. Ainsi, nous pouvons simplement classer les joueurs en fonction de leurs coefficients estimés. (Notez que les paramètres d'affinité ne sont identifiables que jusqu'à un décalage commun. Par conséquent, il est typique de fixer α 1 = 0 pour rendre le modèle identifiable.)αsα1= 0
Modèle 2 : notation indépendante
NB : En relisant la question de l'OP, il apparaît que les modèles ci-dessous sont inadaptés à sa configuration. Plus précisément, le PO s'intéresse à un jeu qui se termine après qu'un nombre fixe de points a été marqué par une équipe ou l'autre. Les modèles ci-dessous conviennent mieux aux jeux qui ont une durée fixe dans le temps. Des modifications peuvent être apportées pour mieux s'intégrer dans le cadre du PO, mais cela nécessiterait une réponse distincte pour se développer.
Maintenant, nous voulons garder une trace des scores. Supposons que c'est une approximation raisonnable que chaque équipe marque des points indépendamment les uns des autres avec le nombre de points marqués dans n'importe quel intervalle indépendamment de tout intervalle disjoint. Ensuite, le nombre de points que chaque équipe marque peut être modélisé comme une variable aléatoire de Poisson.
Ainsi, nous pouvons configurer un GLM Poisson tel que le score d'une équipe composée des joueurs et j dans un jeu particulier soit
log ( μ ) = γ i + γ jjej
Journal( μ ) = γje+ γj
Notez que ce modèle ignore les confrontations réelles entre les équipes, se concentrant uniquement sur le score.
Il ne disposer d' une connexion intéressante au modèle Bradley-Terry modifié. Définissez et supposons qu'un jeu de "mort subite" soit joué dans lequel la première équipe à marquer gagne. Si l'équipe 1 a des joueurs ( i , j ) et l'équipe 2 a des joueurs , alors
Ainsi, le taux moyen de notation des joueurs est équivalent à la formulation du paramètre «force» du modèle 1.σje= eγje( i , j )( k , ℓ )
P (l'équipe 1 bat l'équipe 2 en mort subite)= σjeσjσjeσj+ σkσℓ.
Nous pourrions envisager de rendre ce modèle plus complexe en ayant une affinité «offensive» et une affinité «défensive»ρiδi(i,j)(k,ℓ)
log(μ1)=ρi+ρj−δk−δℓ
Journal( μ2) = ρk+ ρℓ- δje- δj
Le score est toujours indépendant dans ce modèle, mais il y a maintenant une interaction entre les joueurs de chaque équipe qui affecte le score. Les joueurs peuvent également être classés en fonction de leurs estimations de coefficient d'affinité.
Le modèle 2 (et ses variantes) permet également de prédire un score final.
Extensions : Une manière utile d'étendre les deux modèles est d'incorporer un ordre dans lequel les indicateurs positifs correspondent à l'équipe "à domicile" et les indicateurs négatifs à l'équipe "à l'extérieur". L'ajout d'un terme d'interception aux modèles peut alors être interprété comme un "avantage de terrain". D'autres extensions pourraient inclure l'incorporation du risque de liens dans le modèle 1 (c'est en fait déjà une possibilité dans le modèle 2).
Note latérale : Au moins un des sondages informatisés (de Peter Wolfe ) utilisé pour les Bowl Championship Series dans le football universitaire américain utilise le modèle (standard) Bradley-Terry pour produire ses classements.