Le document CMU-Intel que vous avez cité montre (à la page 5) que le taux d'erreur dépend fortement du numéro de pièce / date de fabrication du module DRAM et varie d'un facteur 10-1000. Il semble également que le problème soit beaucoup moins prononcé dans les puces fabriquées récemment (2014).
Le nombre «9.4x10 ^ -14» que vous avez cité a été utilisé dans le contexte d'un mécanisme d'atténuation théorique proposé appelé «PARA» (qui pourrait être similaire à un mécanisme d'atténuation existant pTRR (pseudo Target Row Refresh)) et n'est pas pertinent pour votre question, parce que PARA n'a rien à voir avec ECC.
Un deuxième article CMU-Intel (page 10) mentionne les effets de différents algorithmes ECC sur la réduction des erreurs (facteur 10 ^ 2 à 10 ^ 5, peut-être beaucoup plus avec des tests de mémoire sophistiqués et des "bandes de garde").
ECC transforme efficacement l'exploit Row Hammer en une attaque DOS. Les erreurs 1 bit seront corrigées par ECC, et dès qu'une erreur 2bit non corrigeable est détectée, le système s'arrêtera (en supposant SECDED ECC).
Une solution consiste à acheter du matériel prenant en charge pTRR ou TRR. Voir le billet de blog actuel de Cisco sur Row Hammer . Au moins certains fabricants semblent avoir l'un de ces mécanismes d'atténuation intégré dans leurs modules DRAM, mais le gardent profondément caché dans leurs spécifications. Pour répondre à votre question: demandez au vendeur.
Des taux de rafraîchissement plus rapides (32 ms au lieu de 64 ms) et des intervalles de nettoyage de patrouille agressifs aident également, mais auraient un impact sur les performances. Mais je ne connais aucun matériel serveur qui permette réellement de peaufiner ces paramètres.
Je suppose qu'il n'y a pas grand-chose que vous puissiez faire du côté du système d'exploitation, sauf mettre fin aux processus suspects avec une utilisation constante élevée du processeur et des échecs de cache élevés.