Quiconque suit le baseball a probablement entendu parler de la performance de type MVP de nulle part de Jose Bautista de Toronto. Au cours des quatre années précédentes, il a réalisé environ 15 circuits par saison. L'année dernière, il a atteint 54, un nombre dépassé par seulement 12 joueurs dans l'histoire du baseball.
En 2010, il a été payé 2,4 millions et il demande à l'équipe 10,5 millions pour 2011. Ils offrent 7,6 millions. S'il peut répéter cela en 2011, il vaudra facilement l'un ou l'autre montant. Mais quelles sont les chances qu'il répète? Dans quelle mesure peut-on s'attendre à ce qu'il régresse jusqu'à la moyenne? Quelle part de sa performance peut-on espérer être due au hasard? Que pouvons-nous attendre de ses totaux ajustés de régression à la moyenne pour 2010? Comment est-ce que je le règle?
J'ai joué avec la base de données de Lahman Baseball et j'ai évincé une requête qui renvoie les totaux du home run pour tous les joueurs des cinq saisons précédentes qui ont eu au moins 50 frappeurs au bâton par saison.
Le tableau ressemble à ceci (remarquez Jose Bautista au rang 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
et le résultat complet (232 lignes) est disponible ici .
Je ne sais vraiment pas par où commencer. Est-ce que quelqu'un peut-il me montrer la bonne direction? Certaines théories pertinentes et les commandes R seraient particulièrement utiles.
Merci bien
Tommy
Remarque: l'exemple est un peu artificiel. Les home runs ne sont certainement pas le meilleur indicateur de la valeur d'un joueur, et les totaux des home runs ne tiennent pas compte du nombre variable d'occasions par saison qu'un frappeur a la chance de réaliser des home runs (apparitions de plaques). Cela ne reflète pas non plus le fait que certains joueurs évoluent dans des stades plus favorables et que les circuits moyens des ligues changent d'une année à l'autre. Etc. Etc. Si je peux saisir la théorie derrière la comptabilité de la régression à la moyenne, je peux l'utiliser sur des mesures plus appropriées que les RH.