Ok, notre nouvelle version a des pics de 100% cpu sur chaque serveur à intervalles aléatoires. Pendant de longues durées, cela rend le site totalement insensible - ce sera aux heures de pointe lorsque des personnes de différents pays se connecteront au site, etc.
Nous avons examiné perfmom, les profileurs de mémoire, le profileur CLR, les profileurs sql, le profileur de fourmis Red Gate, essayé les tests de charge dans UAT - mais nous ne pouvons même pas reproduire le problème. Cela pourrait signifier que seuls des milliers d'utilisateurs frappant le site en direct peuvent le faire.
Un modèle que nous avons remarqué est que le nouveau code - la version cassée - utilise en fait sensiblement moins de threads.
Nous utilisons également le ressort pour le CIO - cela a-t-il une réputation de lit?
Pour aggraver les choses, nous ne pouvons pas déployer pour vivre en raison de l'impact sur l'entreprise - nous ne pouvons donc pas réduire le problème à un sous-ensemble des nouvelles fonctionnalités que nous avons ajoutées.
Nous sommes vraiment détruits - quelqu'un a-t-il des cicatrices de bataille qui pourraient nous sauver quelques vies?