Je suis dans un environnement qui contient de nombreux serveurs Supermicro équipés de contrôleurs RAID matériels Adaptec et LSI MegaRAID . Ces contrôleurs contiennent des modules de cache alimentés par batterie pour améliorer les performances d'écriture et protéger les données en transit.
Un problème de support fréquent est la défaillance de la batterie du contrôleur RAID. Cela fait passer le tableau du mode d' écriture différée au mode d' écriture directe. Il y a clairement un impact négatif sur les performances car le système fonctionne avec une vitesse d'écriture dégradée. Cela persiste jusqu'à ce qu'une fenêtre d'indisponibilité puisse être établie pour éteindre le système et remplacer la batterie.
C'est une opération très routinière pour nous; presque chaque semaine sur plusieurs milliers de serveurs physiques ... Nous avons même des stations de charge en place pour préparer des batteries de remplacement afin de pouvoir les remplacer sans cycle de charge.
Je suis peut-être gâté par une longue histoire avec les serveurs HP ProLiant et les contrôleurs RAID Smart Array , mais les systèmes HP ont généralement une durée de vie de la batterie de 4 à 6 ans. Ils ont finalement éliminé l'utilisation de batteries RAID vers 2009. Elles ont été remplacées par des modules de mémoire à supercondensateur (cache d'écriture à mémoire flash ou FBWC) et ne nécessitent pas de remplacement, d'élimination ou de cycle de charge initial long.
Étant donné que je constate que les pannes de batterie des contrôleurs Adaptec et LSI se produisent parfois sur des systèmes qui sont en service depuis moins de 12 mois, je me demande si cela est courant dans d'autres environnements.
Si cela est courant, comment les autres grands environnements de serveurs gèrent-ils cela?
- Des trucs ou astuces pour gérer les remplacements de batterie RAID?
- Y a-t-il des paramètres de configuration qui peuvent vous aider?
- Dans quelle mesure cela perturbe-t-il les opérations dans votre environnement?
- Le mauvais refroidissement du châssis et la température peuvent-ils être un facteur?
- Faisons-nous quelque chose de mal?
- Les contrôleurs Dell PERC sont fabriqués par LSI. Les environnements Dell connaissent-ils les mêmes durées de vie de batterie courtes?
Documentation produit LSI décrivant une batterie de nouvelle génération qui peut durer plus longtemps que 1 an.
Serveur HP ProLiant DL585 G2 avec une disponibilité de plus de 1000 jours et une batterie RAID heureuse ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK