Évaluations informatiques: sont-elles fiables?


14

Fritz 12 avec Rybka a donné à un de mes amis une évaluation de +3 pour les blancs dans cette position de fin de partie ,

Blanc pour bouger

qui s'est avéré être un match nul. Mais j'ai entendu dire que +3 à partir d'un ordinateur signifie une victoire garantie avec un jeu parfait. Est-ce que je viens d'entendre mal? Comment interpréter les évaluations informatiques en général? Que signifient même les avantages d'ouverture <0,5?


3
Je contesterais le commentaire "garantie de gain". Le numéro d'évaluation est un indicateur heuristique, essentiellement un "sentiment" que l'ordinateur a pour la position. Les finales peuvent avoir des résultats "surprenants", et à moins que l'ordinateur n'ait été programmé pour détecter tous les motifs possibles (ou qu'il puisse calculer tout le chemin), il en manquera certains. Pour voir les choses autrement, si +3 était vraiment garanti, ce ne serait pas +3, ce serait + infini.
Daniel B

Pour mémoire, j'ai vérifié cela avec les bases de table Lichess 7 pièces, et c'est, en effet, un tirage au sort.
PhishMaster

Réponses:


8

Il y a deux ou trois choses ici.

Tout d'abord, chaque programme va avoir sa propre façon d'évaluer les positions afin que les scores ne puissent pas être directement comparés. Par exemple, je dirigeais StockFish contre Rybka récemment et j'ai découvert que les scores de Stockfish étaient environ le double de ceux de Rybka. J'ai été surpris par cela, mais il est assez clair qu'un score de 1 ne signifie pas toujours "1 pion". Je pense que ce que nous devrions examiner, c'est comment le score change. Une autre curiosité que j'ai vue hier (tout en répondant à l'une de vos autres questions, par coïncidence) était que l'algorithme d'évaluation de Stockfish n'aime pas beaucoup les nombres impairs. En fait, la plupart des scores étaient des multiples de 0,04. Étant donné que l'ampleur de la valeur est arbitraire, je ne supposerais pas qu'une certaine valeur signifie «une victoire sûre» à moins que la machine ne prétende avoir trouvé un partenaire.

Deuxièmement, les bases de table de fin de jeu ont été créées parce que la résolution des jeux de fin nécessite beaucoup de profondeur de recherche. Les ordinateurs jouant à des vitesses de tournoi ne le font pas bien. Je travaillais sur un jeu différent il y a quelques jours et j'ai annoncé sur ce site qu'un côté avait un avantage. Ed a utilisé une base de table pour montrer qu'il n'y avait plus de mystère dans la position - elle était théoriquement dessinée. Bien sûr, il y a une énorme différence entre dessiné avec un jeu parfait et dessiné; les joueurs doivent trouver les bons coups.


La petite valeur généralement accordée aux Blancs au début du jeu signifie essentiellement que les Blancs peuvent revendiquer un bien immobilier plus précieux. Par exemple, au coup 1, les Blancs peuvent réclamer e4 et attaquer e5 et f5. Le noir peut contrer. Mais alors les Blancs peuvent jouer Nc3 et attaquer / renforcer a4, b5, d5 et e4. Mais les Noirs peuvent contrer. Cela signifie donc très peu.


Enfin, pour répondre à la question dans votre ligne d'objet - les évaluations sont très fiables car elles sont basées sur des faits concrets et une profondeur de recherche impressionnante. Bien sûr, les machines ne sont pas infaillibles. Mais nous, b-joueurs, devons nous rappeler que Stockfish (ou Rybka) joue avec les forces de GM sur un matériel modeste. Sur le meilleur matériel commun , ils estiment leur FIDE 3200. C'est tellement élevé que seuls les meilleurs humains ont une légère chance de ne pas perdre.

Considérez ce que cela signifie; Je (USCF 1650-ish) n'ai aucune chance contre une personne (disons, USCF 2050) qui n'a aucune chance contre une personne (disons, USCF 2450) qui n'a aucune chance contre une personne (disons, USCF 2850) qui a un ruban d'une chance contre un programme commercial de haut vol (FIDE 3200).

Ainsi, lorsque Stockfish dit qu'un mouvement est meilleur qu'un autre, je le prends généralement à sa valeur nominale. Quand je connecte les bases de table de fin de partie, cette chose va commencer à annoncer le compagnon des années 30, lol.


1
Très belle réponse. J'ai toujours pensé qu'une évaluation de 1 signifiait 1 pion de matériel. De plus, chesstempo dit que les meilleurs coups dans ses problèmes sont ceux qui gagnent au moins 2 pions de matériel, j'ai donc considéré qu'une évaluation de moteur de +2 ou plus était gagnante quelle que soit l'étape d'un jeu. Cependant, j'ai trouvé que l'analyse du stockfish était défectueuse auparavant et j'ai vu comment il ne parvient pas à évaluer correctement les jeux de fin. Sur cette note, savez-vous où je peux trouver une base de table de fin de partie?
chubbycantorset

Voici la base de table en ligne pour 6 personnes que Ed a publiée: k4it.de/index.php?topic=egtb&lang=en
Tony Ennis

+1 pour "Je n'assumerais pas qu'une certaine valeur signifie" une victoire sûre "à moins que la machine ne prétende avoir trouvé un partenaire."
1er

14

Différents moteurs ont différentes «échelles» pour leurs évaluations numériques. Par exemple, dans une position typique de milieu de jeu avec beaucoup de jeu à gauche, quand Houdini dit +2,00 ou mieux, il est très probable que les Blancs ont un avantage gagnant (bien que même ici, j'ai inclus des qualifications pour une raison). Mais considérez: on pourrait modifier le code source de Houdini et doubler les valeurs absolues de tous les nombres impliqués dans les évaluations; on obtient un moteur de force identique qui produit un jeu identique, mais maintenant +4,00 signifie ce que +2,00 signifiait auparavant. Cela montre qu'il ne faut pas s'attendre à un seuil numérique uniforme sur tous les moteurs, ce qui indique généralement un avantage gagnant.

Plus que cela, cependant, il est important de comprendre qu'une évaluation numérique du moteur d'une position (par opposition à une déclaration pure et simple de partenaire inévitable) ne se traduit jamais strictement par "un jeu gagné", même pour un seul moteur fixe. Un point clé est que les évaluations numériques n'ont pas de "signification" claire en termes d'échecs, et sont plutôt juste un substitut à la pensée sensible qui est utilisée pour guider mécaniquement un moteur vers des résultats généralement souhaitables en influençant le mouvement qu'il sélectionne à chaque point dans le jeu; sous cet angle, ce qui est finalement le plus important pour le jeu d'un moteur est juste la différence d'évaluation attribuée aux mouvements potentiels, plutôt que quoi que ce soit sur les valeurs absoluesimpliqué. Les chiffres sont utiles au moteur lui-même, qui a besoin de quelque chose de concret pour prendre une décision d'un mouvement par rapport à un autre, mais nous, les humains, ne devrions pas être trop rapides pour lire plus de sens dans les grandeurs impliquées avec des pensées comme «+ X signifie une victoire. "

En particulier, plus nous progressons vers une fin de partie par opposition à une partie intermédiaire, moins nous pouvons utiliser une règle de base (comme mon +2,00 pour Houdini dans les parties intermédiaires ci-dessus) sur un certain seuil suffisant pour une victoire. Une des principales raisons à cela est la difficulté des moteurs à reconnaître les forteresses, où une abondance de matériel supplémentaire n'est toujours pas suffisante pour gagner. Par exemple, quand je nourris Stockfish cette position,

NN - NN

après quelques minutes, j'ai pensé qu'il donnait une évaluation d'environ +7,00, et dans une position typique, lorsque Stockfish dit cela, vous avez certainement une victoire sur les mains. Néanmoins, c'est un tirage au sort mortel, et un humain peut le voir facilement une fois que le fait est réalisé que les Noirs peuvent simplement mélanger la tour entre f6 et h6, et ainsi (1) le pion h est inutile, et (2) le blanc le roi ne pourra jamais aider la reine blanche à attaquer. Finalement , Stockfish reconnaîtra également un match nul ici, une fois qu'il se heurtera à 50 mouvements, disons, ou qu'il manquera finalement de mouvements différents pour essayer et ne pourra finalement pas éviter une répétition, mais ces événements sont bien en aval de la ligne de profondeur de recherche.

La position de fin de partie de votre question précédente à laquelle vous vous êtes lié est semblable à ce genre de forteresse, en ce sens que les pions passés connectés supplémentaires que White a là sont agréables et tout, mais finalement pas assez pour gagner dans cette position. Si un moteur devait calculer suffisamment de temps pour voir autant d'informations que celles contenues dans les bases de table, son évaluation reviendrait à 0, mais en attendant, son algorithme d'évaluation n'a rien de mieux que de donner un + pour cela matériel supplémentaire (qu'il ne connaît pas encore n'a pas de sens).


+1 pour "Plus que cela, cependant, il est important de comprendre qu'une évaluation numérique du moteur d'une position (par opposition à une déclaration pure et simple d'un partenaire inévitable) ne se traduit jamais strictement par un jeu gagné"
férit le

8

Je pense que cette image décrit assez bien la situation. Il a été créé à partir de jeux 400k, et ne prend en compte que le matériel de pièce simple.

Probabilité de gagner / Avantage de pion

Source: Pawn Advantage, Win Percentage et ELO


1
Belle contribution! +1
ferit le

@Thomas Ahle: Le graphique est intéressant. Mais l'article d'origine n'est plus disponible, le lien wikispaces est malheureusement tombé. Vous souvenez-vous de la signification exacte de W = Win Probability? Était-ce gagnant contre perdant en ignorant les tirages? Ou était-ce le "score attendu" en tenant compte des tirages?
Diedrsch

@Diedrsch J'ai mis à jour le lien
Thomas Ahle
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.