Mesurer l'efficacité d'un joueur individuel à 2 joueurs par sport d'équipe

19

J'ai une feuille de calcul de certains scores d'équipe. La première équipe à 10 points gagne. Il y a 2 joueurs dans chaque équipe. Les joueurs jouent avec des coéquipiers différents tout le temps, bien qu'ils ne soient pas choisis au hasard parfaitement. Aucun score individuel n'est conservé.

Donc, fondamentalement, Bill et Bob ont battu Andy et Alice 10-4 Jake et Bill ont battu Joe et John 10-8 ...

Est-il possible de trouver un classement pour les joueurs individuels , basé sur toutes les données de match disponibles. Fondamentalement, pour voir combien chaque joueur contribue à chaque jeu en termes de points ou par rapport aux autres joueurs?

ranking games bradley-terry-model

— Bill Waterson
source

1

Si tout cela est utile et que vous seriez intéressé à voir un développement ultérieur de l'adaptation simple du modèle de "score indépendant" à votre scénario, faites-le moi savoir et j'essaierai de l'écrire (j'espère un peu plus de façon concise) comme réponse distincte. À votre santé.

— Cardinal

13

Voici quelques modèles très simples . Ils sont tous les deux déficients au moins d'une manière, mais peut-être qu'ils fourniront quelque chose sur lequel s'appuyer. Le deuxième modèle ne traite pas (tout à fait) le scénario du PO (voir les remarques ci-dessous), mais je le laisse au cas où cela aiderait en quelque sorte.

Modèle 1 : une variante du modèle Bradley-Terry

Supposons que nous voulons avant tout prédire si une équipe en battra une autre en fonction des joueurs de chaque équipe. Nous pouvons simplement enregistrer si l'équipe 1 avec les joueurs bat l'équipe 2 avec les joueurs pour chaque match, en ignorant le score final. Certes, cela jette des informations, mais dans de nombreux cas, cela fournit encore beaucoup d'informations. $(i,j)$ $(k,\ell)$

Le modèle est alors

l o g je t (P (L'équipe 1 bat l'équipe 2)) = α_{je} + α_{j} - α_{k} - α_{ℓ} .

$\mathrm{logit}(\mathbb P(\text{Team 1 beats Team 2})) = \alpha_i + \alpha_j - \alpha_k - \alpha_\ell \> .$

Autrement dit, nous avons un paramètre "d'affinité" pour chaque joueur qui affecte dans quelle mesure ce joueur améliore les chances de gagner de son équipe. Définissez la "force" du joueur par . Ensuite, ce modèle affirme que $s_i = e^{\alpha_i}$

P (L'équipe 1 bat l'équipe 2) = \frac{s_{je} s_{j}}{s_{je} s_{j} + s_{k} s_{ℓ}} .

$\mathbb P(\text{Team 1 beats Team 2}) = \frac{s_i s_j}{s_i s_j + s_k s_\ell} \>.$

Il y a une symétrie très sympa ici dans la mesure où la réponse est codée tant qu'elle est cohérente avec les prédicteurs. Autrement dit, nous avons également

l o g je t (P (L'équipe 2 bat l'équipe 1)) = α_{k} + α_{ℓ} - α_{je} - α_{j} .

$\mathrm{logit}(\mathbb P(\text{Team 2 beats Team 1})) = \alpha_k + \alpha_\ell - \alpha_i - \alpha_j \> .$

Cela peut être facilement ajusté comme une régression logistique avec des prédicteurs qui sont des indicateurs (un pour chaque joueur) prenant une valeur si le joueur est dans l'équipe 1 pour le jeu en question, si elle est dans l'équipe 2 et si elle ne le fait pas. participer à ce jeu. $+1$ $i$ $-1$ $0$

De cela, nous avons également un classement naturel pour les joueurs. Plus le (ou ) est grand, plus le joueur améliore les chances de victoire de son équipe. Ainsi, nous pouvons simplement classer les joueurs en fonction de leurs coefficients estimés. (Notez que les paramètres d'affinité ne sont identifiables que jusqu'à un décalage commun. Par conséquent, il est typique de fixer pour rendre le modèle identifiable.) $\alpha$ $s$ $\alpha_1 = 0$

Modèle 2 : notation indépendante

NB : En relisant la question de l'OP, il apparaît que les modèles ci-dessous sont inadaptés à sa configuration. Plus précisément, le PO s'intéresse à un jeu qui se termine après qu'un nombre fixe de points a été marqué par une équipe ou l'autre. Les modèles ci-dessous conviennent mieux aux jeux qui ont une durée fixe dans le temps. Des modifications peuvent être apportées pour mieux s'intégrer dans le cadre du PO, mais cela nécessiterait une réponse distincte pour se développer.

Maintenant, nous voulons garder une trace des scores. Supposons que c'est une approximation raisonnable que chaque équipe marque des points indépendamment les uns des autres avec le nombre de points marqués dans n'importe quel intervalle indépendamment de tout intervalle disjoint. Ensuite, le nombre de points que chaque équipe marque peut être modélisé comme une variable aléatoire de Poisson.

Ainsi, nous pouvons configurer un GLM Poisson tel que le score d'une équipe composée des joueurs et dans un jeu particulier soit $i$ $j$

Journal (μ) = γ_{je} + γ_{j}

$\log(\mu) = \gamma_i + \gamma_j$

Notez que ce modèle ignore les confrontations réelles entre les équipes, se concentrant uniquement sur le score.

Il ne disposer d' une connexion intéressante au modèle Bradley-Terry modifié. Définissez et supposons qu'un jeu de "mort subite" soit joué dans lequel la première équipe à marquer gagne. Si l'équipe 1 a des joueurs et l'équipe 2 a des joueurs , alors Ainsi, le taux moyen de notation des joueurs est équivalent à la formulation du paramètre «force» du modèle 1. $\sigma_i = e^{\gamma_i}$ $(i,j)$ $(k,\ell)$

P (Team 1 beats Team 2 in sudden death) = \frac{σ_{i} σ_{j}}{σ_{i} σ_{j} + σ_{k} σ_{ℓ}} .

$\mathbb P(\text{Team 1 beats Team 2 in sudden death}) = \frac{\sigma_i \sigma_j}{\sigma_i \sigma_j + \sigma_k \sigma_\ell} \>.$

Nous pourrions envisager de rendre ce modèle plus complexe en ayant une affinité «offensive» et une affinité «défensive» $\rho_i$ $\delta_i$ $(i,j)$ $(k,\ell)$

\log (μ_{1}) = ρ_{i} + ρ_{j} - δ_{k} - δ_{ℓ}

$\log(\mu_1) = \rho_i + \rho_j - \delta_k - \delta_{\ell}$

Journal (μ_{2}) = ρ_{k} + ρ_{ℓ} - δ_{je} - δ_{j}

$\log(\mu_2) = \rho_k + \rho_{\ell} - \delta_i - \delta_j$

Le score est toujours indépendant dans ce modèle, mais il y a maintenant une interaction entre les joueurs de chaque équipe qui affecte le score. Les joueurs peuvent également être classés en fonction de leurs estimations de coefficient d'affinité.

Le modèle 2 (et ses variantes) permet également de prédire un score final.

Extensions : Une manière utile d'étendre les deux modèles est d'incorporer un ordre dans lequel les indicateurs positifs correspondent à l'équipe "à domicile" et les indicateurs négatifs à l'équipe "à l'extérieur". L'ajout d'un terme d'interception aux modèles peut alors être interprété comme un "avantage de terrain". D'autres extensions pourraient inclure l'incorporation du risque de liens dans le modèle 1 (c'est en fait déjà une possibilité dans le modèle 2).

Note latérale : Au moins un des sondages informatisés (de Peter Wolfe ) utilisé pour les Bowl Championship Series dans le football universitaire américain utilise le modèle (standard) Bradley-Terry pour produire ses classements.

— cardinal
source

7

L' algorithme TrueSkill de Microsoft , tel qu'il est utilisé pour classer les joueurs sur XBox Live, peut gérer les matchs par équipe, mais n'intègre pas de marge de victoire. Cela peut encore vous être utile.

— Martin O'Leary
source

1

Oui.

Vous pouvez consulter le record de victoires / défaites de chaque joueur et le différentiel de points. Je me rends compte que c'est une réponse simple, mais, ces statistiques seraient toujours significatives.

— Adam
source

Je veux quelque chose d'un peu plus complexe que ça. Il semble qu'en moyenne, un joueur contribue X nombre de points à une partie. Je voulais savoir si je pouvais comprendre cela ou une approximation approximative.

— Bill Waterson

Je voudrais voir comment Jeff Sagarin fait son classement de puissance pour le football universitaire et d'autres sports. Je suppose qu'il garde sa formule, mais je pense qu'il l'a fait pendant qu'il était étudiant à la maîtrise au MIT. Sagarin prend en compte à quel point vous battez vos adversaires, à quel point vos adversaires sont bons et la force du calendrier (qui peut être la même que `` à quel point vos adversaires sont bons.) Je pense qu'un type nommé Danny Sheridan a un système similaire. Bonne chance.

— Adam

1

(Je voudrais ajouter ceci en tant que commentaire pour une réponse précédente, mais ma réputation n'était pas suffisante, pour le moment)

Martin O'Leary a lié l' algorithme TrueSkill , et c'est une bonne option. Si vous êtes intéressé par l'utilisation (plus que par le développement), vous devriez essayer de Rankade , notre système de classement. Comme TrueSkill, il peut gérer deux factions avec plus d'un joueur chacune (baby-foot 2 contre 2, tennis de table 2 contre 2, basket-ball 3 contre 3 et 5 contre 5, et plus). Certaines différences remarquables, entre autres, sont que le classement permet la construction de factions plus structurées (1 contre 1, faction contre faction, multijoueur, multifaction, jeux coopératifs, factions asymétriques, etc.) et qu'il est gratuit à utiliser.

Voici une comparaison entre les systèmes de classement les plus connus.

— Tomaso Neri
source