Voici une rapide et sale analyse basée sur la base de données PGN "Million Base". Je l'ai fait en un clin d'œil, il peut donc bien y avoir des erreurs de programmation ou de logique. Veuillez ne pas l'utiliser pour quelque chose de trop grave. Mise à jour - Remarque: En fait, je viens de remarquer que j'ai fait une erreur avec l'ensemble de données et je l'ai limité au premier million d'enregistrements. Je publierai une mise à jour lorsque j'aurai du temps libre pour l'exécuter à nouveau sur l'intégralité. En attendant, ces chiffres devraient néanmoins être intéressants.
Obtention des données:
J'ai obtenu le fichier Million Base 1.74 à partir de cette URL , car le site top-5000.nl semble 404 lorsque vous essayez de le télécharger. Le fichier contient un peu plus d'un million de jeux au format d'exportation PGN (c'est-à-dire facile à analyser).
Malheureusement, plus de 60% des jeux manquaient d'informations sur les notes (je cherchais des balises "WhiteELO" et "BlackELO"), et encore moins avaient des notes pour les deux joueurs. À la fin, j'ai décidé d'obtenir un échantillon aussi grand que possible et j'ai compté les mouvements d'un joueur si sa cote était connue, quelle que soit la cote de l'autre joueur.
Processus:
Les jeux ont été analysés un par un, et si la note d'un joueur était connue, tous ses mouvements pour cette partie seraient ajoutés à l'agrégat pour le groupe de notation du joueur. J'ai choisi de diviser les notes en groupes de 100, donc par exemple 1600 à 1699 était un seul groupe.
Comme le movetext réel dans PGN est SAN, j'ai utilisé le raccourci suivant pour compter les mouvements: les mouvements Knight (N), Bishop (B), Rook (R), Queen (Q) et King (K) commencent tous par la lettre de leur morceau . Le roque (OO et OOO) a été compté séparément, comme cas particulier. Tous les mouvements restants ont été comptés comme des mouvements de pion sans autre examen.
Aucun nettoyage des données n'a été effectué. Il n'y a eu aucune tentative d'identifier les valeurs aberrantes et de les supprimer (par exemple, des jeux extrêmement courts et longs, etc.). J'ai gardé, mais n'incluais pas dans l'analyse suivante, les résultats des évaluations inférieures à 1600 - la taille de l'échantillon pour ces jeux était bien inférieure à 100, conduisant à de grandes variations dans les résultats. Les données brutes sont fournies à la fin de ce post.
Quelques lacunes de l'information: pour l'instant, je n'ai collecté que des totaux très basiques et fourni des moyennes. Je suis à peu près sûr qu'en général, les données ne sont PAS normalement distribuées, mais ne seront pas en mesure d'en dire plus sans produire les chiffres bruts et les exécuter via un programme statistique. Je peux le faire, s'il y a un intérêt. Pour le moment, cela ne signifie aucun intervalle de confiance, ni aucune autre information sur la distribution des nombres que ces moyennes représentent. Je n'ai pas non plus vérifié combien d'années s'étend l'ensemble de données - s'il représente plusieurs années, il peut être utile d'essayer de corriger la force globale du champ.
Quelques tendances:
Un mot sur les cotes des joueurs - les groupes de cotes les plus fréquemment rencontrés étaient, dans l'ordre: 2400 à 2500, 2500 à 2600 et 2300 à 2400. Ces groupes de cotes fournissaient 72% des matchs comptés.
En regardant les résultats réels, la durée moyenne du jeu a été un peu une surprise:
Les groupes de notation inférieurs à 2000 avaient tous des matchs beaucoup plus courts que les groupes supérieurs. Cela peut s'expliquer par la possibilité qu'ils jouaient des adversaires plus forts (voir la note moyenne ci-dessus) et qu'ils aient été vaincus en moins de coups. Cela semble aller à l'encontre des jeux légèrement plus courts joués par le groupe de notation supérieur, bien que cela puisse contribuer à une taille d'échantillon plus petite.
Les différences relativement importantes dans la durée moyenne du jeu signifient que fournir la fréquence de déplacement d'une certaine pièce, plutôt que le nombre total de fois qu'une pièce est déplacée, est peut-être la comparaison la plus juste. Le calcul des fréquences donne le graphique suivant:
Les tendances suivantes semblent être présentes:
- La fréquence des mouvements de chevalier semble tendre légèrement à la baisse avec la notation.
- Bishop déplace la tendance à la baisse jusqu'en 2000 environ, puis tend lentement à la hausse.
- Les mouvements de tour ont tendance à fortement augmenter à peu près au même point, et restent plus fréquents que les mouvements de Bishop dans un jeu de haut niveau.
- Les mouvements de pions semblent tendre légèrement à la baisse avec une note accrue. Une grande exception est la catégorie supérieure, 2800 à 2900. Cela nous amène au point suivant:
- La catégorie de notation la plus élevée fournit des valeurs aberrantes ou des contre-tendances dans un certain nombre de mesures. Cela peut s'expliquer de diverses manières - 1) la taille de l'échantillon est assez faible à 363, pas minuscule, mais 10% de la plus petite taille d'échantillon suivante incluse. 2) Puisqu'ils sont au sommet des classements, ils ne jouent jamais contre des adversaires "plus forts" qu'eux. 3) Ou simplement à ce niveau, leur style de jeu a transcendé les niveaux en dessous d'eux. Ma conjecture serait une combinaison de 1) et 2).
- Les différences entre les mouvements de reine et les mouvements de roque sont très petites sans aucune tendance réelle, à part une petite tendance à la baisse dans les deux cas.
- La fréquence des mouvements du roi présente certaines des plus grandes différences. Aucune tendance claire n'est visible, et elle semble changer de direction 3 ou 4 fois.
Analyse approfondie
Quelques idées pour une analyse future:
- Corrections statistiques de base: Je pense que les jeux extrêmement courts et longs devraient probablement être exclus. De plus, la distribution des chiffres réels pourrait être très révélatrice.
- Le fractionnement de l'analyse plus loin peut également donner des résultats intéressants. Par exemple, je serais intéressé de savoir comment les fréquences du noir et du blanc correspondent (sont-elles les mêmes ou différentes? Pourquoi?).
- La catégorisation par différence de note peut également être intéressante, les joueurs jouant un adversaire beaucoup plus fort (disons 200 notes au-dessus d'eux) jouent-ils avec des fréquences de mouvement différentes? Malheureusement, cela nécessite que l'ELO des deux joueurs soit connu, ce qui est rare dans cet ensemble de données.
- La tendance au château court par rapport au château long peut également varier selon la note.
- Les statistiques de promotion des pièces, certaines analyses structurelles légères (par exemple, l'incidence des pions doublés, en passant, des épingles, des fourchettes, indiquées par évaluation) pourraient être utiles.
- Les "cartes thermiques" du placement des pièces sur le plateau réel, affichées par note, peuvent également être assez intéressantes.
Agréger des données au format CSV
Pour ceux qui veulent jouer avec les données, n'hésitez pas.
Plage de notation, taille de l'échantillon, durée moyenne du jeu, mouvements de pion moyens, mouvements de chevalier moyens, mouvements d'évêque moyens, mouvements de tour moyens, mouvements de reine moyens, mouvements de roi moyens, roque moyen
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857