Nous avons un serveur de base de données SQL Server 2008 (il se trouve qu'il fonctionne sous MS Failover Clustering, mais je ne pense pas que ce soit pertinent ici).
Notre application exécute Hibernate pour l'accès aux bases de données, et depuis que nous avons récemment mis à niveau la version 3.1 vers la version 3.6, nous avons constaté des pannes régulières de SQL Server (toutes les 24 à 48 heures, mais parfois plus fréquemment).
Le problème spécifique en question semble être lié à la mémoire. Juste avant que le serveur ne plante (et qu'il soit ensuite redémarré automatiquement par le gestionnaire de cluster de basculement, il semble), nous obtenons une charge de ces erreurs:
Error: 701, Severity: 17, State: 130.
There is insufficient system memory in resource pool 'internal' to run this query.
aussi des messages occasionnels (mais réguliers) de
Error: 17300, Severity: 16, State: 1. (Params:). The error is printed in terse mode because there was error during formatting. Tracing, ETW, notifications etc are skipped.
Erreur: 17312, gravité: 16, état: 1. (Paramètres :). L'erreur est imprimée en mode laconique car une erreur s'est produite lors du formatage. Le traçage, l'ETW, les notifications, etc. sont ignorés.
Je reçois également des erreurs au niveau de l'application telles que
java.sql.SQLException: A time out occurred while waiting to optimize the query. Rerun the query.
puis l'erreur passionnante et peut-être instructive:
The query processor ran out of internal resources and could not produce a query plan.
This is a rare event and only expected for extremely complex queries or queries that reference a very large number of tables or partitions.
Please simplify the query. If you believe you have received this message in error, contact Customer Support Services for more information.
La charge sur le serveur n'a pas changé, il n'y a donc aucune raison qu'il devrait maintenant manquer de mémoire alors qu'il n'indiquait pas auparavant un problème avec les requêtes qui lui étaient envoyées.
Maintenant à la question - comment puis-je suivre les requêtes qui causent cette erreur (et donc probablement tous les problèmes)? Il semble que depuis notre mise à niveau d'Hibernate, il ait lancé d'énormes requêtes sur SQL Server, et c'est cassé. En l'occurrence, j'ai quelques idées sur ce qu'elles pourraient être, mais ce serait bien de pouvoir les retrouver.
Je peux bien sûr exécuter le profileur SQL Server, mais une fois cela fait (et produit une énorme quantité de données - c'est une base de données OLTP occupée), comment filtrer pour trouver les requêtes problématiques?
Merci!