Un modèle «à la pointe de la technologie» pour la répartition des buts marqués lors d'un match de football est celui de Dixon et Robinson (1998) «A Birth Process Model for Association Football Matches» qui explique deux phénomènes clés:
1) Plus de buts sont marqués à la fin des matches qu'au début (supposé être dû à la fatigue subie par les deux équipes)
2) Les taux de score dépendent de la ligne de score actuelle pour une multitude de raisons telles que les équipes avec une avance devenant complaisantes ou les équipes préférant jouer pour un match nul plutôt que de risquer une perte en tentant de gagner.
Le modèle suppose que les buts marqués par les équipes à domicile et à l'extérieur dans un match suivent des processus de Poisson non homogènes. Soit le temps écoulé dans un match, normalisé pour se situer entre et , le vecteur de longueur désigne les moments auxquels l'équipe à domicile a marqué des buts et le vecteur de longueur désigne les moments où l'équipe à l'extérieur a marqué des buts. La probabilité du match est alors
où est le taux de notation de l'équipe à domicile au temps dépendant d'une combinaison de facteurs homogènes dans le temps (par exemple, capacité d'attaque de l'équipe à domicile contre capacité de défense de l'équipe à l'extérieur, avantage à domicile) et de facteurs inhomogènes dans le temps (par exemple ligne de score au moment ). De même pour .
Les deux processus sont dépendants car lorsqu'une équipe marque, la ligne de score change et que les taux de score dépendent eux-mêmes de la ligne de score.
La probabilité peut facilement être évaluée en effectuant l'intégration dans l'exposant numériquement. Par conséquent, il est simple de calculer les paramètres du modèle (capacités de l'équipe, avantage à domicile, effet du temps, paramètres de la ligne de score, etc.) via une probabilité maximale.
En termes de prédiction, des quantités évidentes d'intérêt sont:
- : l'équipe à domicile gagne
- : l'équipe à l'extérieur gagne
- : dessiner
- Probabilité de lignes de score particulières, par exemple
- Probabilité de buts totaux dans le match, par exemple
Pour calculer ces quantités (approximativement) à partir d'un ensemble de paramètres du modèle, nous pourrions utiliser des méthodes de Monte Carlo pour générer des correspondances en fonction de ces processus, puis calculer les fréquences de chaque score final. La simulation à partir des processus est relativement simple, en générant des objectifs à partir d'un processus de Poisson homogène enveloppant unique en conjonction avec un échantillonnage de rejet, puis en les distribuant à l'équipe à domicile ou à l'extérieur en conséquence.
L'inconvénient de cette approche est, évidemment, la charge de calcul de la simulation de Monte Carlo. Envisagez de tenter de faire des prédictions en temps réel pendant les matchs, dont plusieurs peuvent se dérouler simultanément, et cela devient rapidement un sujet de préoccupation.
Ma question, par conséquent, est de savoir s'il existe d'autres approches que nous pouvons envisager qui n'entraînent pas de coûts de calcul élevés (même si elles reposent sur une approximation qui sacrifie la précision pour faciliter le calcul)?
Pour plus de clarté, je ne recherche pas de suggestions (de base) sur la façon d'implémenter efficacement la simulation de Monte Carlo que j'ai déjà écrite en C multithread, utilise des nombres quasi-aléatoires qui ont été pré-générés à l'aide du déroulement et exploite l'amincissement par morceaux pour atteindre un taux d'acceptation très élevé. Si vous pensez qu'il y a encore de la place pour une augmentation spectaculaire des performances, alors je suis bien entendu, mais je recherche vraiment une approche fondamentalement différente!