Rendements en DRAM et autres processus massivement redondants

Je suis en train de peigner la littérature en génie électrique sur les types de stratégies utilisées pour produire de manière fiable des systèmes très complexes mais aussi extrêmement fragiles tels que la DRAM, où vous avez une gamme de plusieurs millions de composants et où une seule défaillance peut endommager l'ensemble du système .

Il semble qu'une stratégie courante employée soit la fabrication d'un système beaucoup plus grand, puis la désactivation sélective des lignes / colonnes endommagées à l'aide de fusibles réglables. J'ai lu [1] que (à partir de 2008) aucun module DRAM ne sort du fonctionnement de la ligne, et que pour les modules DDR3 de 1 Go, avec toutes les technologies de réparation en place, le rendement global passe de ~ 0% à environ 70% .

Mais ce n'est qu'un point de données. Ce que je me demande, c'est si c'est quelque chose qui est annoncé sur le terrain? Existe-t-il une source décente pour discuter de l'amélioration du rendement par rapport au SoA? J'ai des sources comme celle-ci [2], qui font un travail décent pour discuter du rendement du raisonnement des premiers principes, mais c'est en 1991, et j'imagine / j'espère que les choses vont mieux maintenant.

De plus, l'utilisation de lignes / colonnes redondantes est-elle encore utilisée aujourd'hui? De combien d'espace de carte supplémentaire cette technologie de redondance a-t-elle besoin?

J'ai également étudié d'autres systèmes parallèles comme les écrans TFT. Un collègue a mentionné que Samsung, à un moment donné, a trouvé moins cher de fabriquer des écrans cassés, puis de les réparer plutôt que d'améliorer leur processus à un rendement acceptable. Cependant, je n'ai pas encore trouvé de source décente à ce sujet.

Réfs

[1]: Gutmann, Ronald J et al. Wafer Level 3-d Ics Process Technology. New York: Springer, 2008. [2]: Horiguchi, Masahi et al. "Une technique de redondance flexible pour les DRAM haute densité." Circuits à semi-conducteurs, IEEE Journal of 26.1 (1991): 12-17.

dram redundancy

— Méphistophélès
source

La redondance des lignes et des colonnes est toujours utilisée aujourd'hui. La redondance au niveau des blocs a été utilisée dans le cache Itanium 2 L3 (voir Stefan Rusu et al., "Itanium 2 Processor 6M: Higher Frequency and Larger L3 Cache", 2004). Une autre considération pour le rendement est le regroupement à la fois pour la vitesse / puissance / température de fonctionnement et la "capacité" (par exemple, les multiprocesseurs à puce peuvent être vendus avec une gamme de nombres de cœurs; même les DRAM à nombre de défauts élevé pourraient, en théorie, être vendus comme une demi-capacité partie).

— Paul A. Clayton

fascinant, merci. En regardant la conception du cache, je vois 140 sous-réseaux, chacun avec 2 sous-banques, qui à leur tour ont huit blocs de tableau 96x256. Chaque bloc a 32 bits. Ce qui signifie qu'il y a, au total, 140 * 2 * 8 * 96 * 256 * 32 = 1,762x10 ^ 9 bits requis pour produire 48x10 ^ 6 bits de stockage. Est-ce correct?

— Mephistopheles

Non, les 32 bits font partie du bloc 96x256 (12 voies de cache * 8 * 4 * 32 bits par ligne de cache). Il convient également de noter que certains des bits sont utilisés pour ECC, de sorte que le cache avait 6 Mo de données . (L'utilisation de l'ECC introduit une autre ride dans le rendement sous le binning. Les exigences de l'ECC varient selon l'application et l'ECC en excès peut être utilisé pour supporter une tension plus basse (ou un taux de rafraîchissement pour la DRAM) sans perte de données pour une partie de puissance inférieure ainsi que pour fournir une correction pour la fabrication Ceci est plus une considération théorique car les facteurs de marketing ne permettent généralement pas une telle flexibilité.)

— Paul A. Clayton

Merci encore. Il s'agit davantage d'obtenir une estimation du coût global du processus de fabrication. Autrement dit, combien d'espace supplémentaire sur la carte (en tant que représentant des ressources physiques dépensées) est nécessaire pour atteindre ces 6 Mo? Je vais essayer d'estimer cela à partir de la zone occupée par le cache L3 et je vous répondrai.

— Mephistopheles

L'utilisation de la zone de cellule binaire ne tient pas compte du décodage de ligne et des autres frais généraux. Le surcoût de la zone de redondance pourrait être simplement estimé en reconnaissant que 4 des 140 sous-réseaux sont des pièces de rechange (un peu moins de 3% de surdébit), sans tenir compte du surdébit de routage supplémentaire. Il convient également de noter que les versions de cache 3M3 L3 ont été vendues, de sorte que le rendement des versions 6 Mo a été autorisé à être inférieur. (Je suppose que l'utilisation de transistors de taille supérieure à la taille minimale pour les cellules SRAM, pour une fuite plus faible, pourrait également diminuer légèrement le taux de défaut effectif.) 136 sous-réseaux utilisés indiquent 8 pour ECC (6 +% de surcharge).

— Paul A. Clayton

Aucun fabricant ne publiera jamais de données de rendement à moins qu'il ne le soit pour une raison quelconque. C'est considéré comme un secret commercial. Donc, pour répondre directement à votre question, non, ce n'est pas annoncé dans l'industrie.

Cependant, il existe de nombreux ingénieurs dont le travail consiste à améliorer le débit de la ligne et le rendement de fin de ligne. Cela consiste souvent à utiliser des techniques comme le binning et la redondance de blocs pour que les pertes hors ligne fonctionnent suffisamment pour être vendables. La redondance de blocs est certainement utilisée aujourd'hui. C'est assez facile à analyser:

(blocs en échec par partie) / (blocs par partie) * (blocs en échec par partie) / (blocs par partie)

Cela vous donnera la probabilité que les deux blocs parallèles échouent. Je doute que vous vous retrouviez avec un rendement aussi bas que 70%, car généralement 90% est le rendement minimum acceptable.

— Tom Brendlinger
source

Bien que j'apprécie votre réponse, @ Paul-a-clayton a fourni ces informations et a également pu citer de véritables publications (en particulier l'Itanium 2) dans les commentaires. De plus, bien que la redondance des blocs soit discutée dans ces articles, elle indique que "cette utilisation de sous-réseaux optimise l'utilisation de la zone de matrice sans contraindre le plan d'étage du noyau" sans mentionner la tolérance aux pannes. Si vous avez des articles qui proposent spécifiquement la redondance de blocs comme outil pour adresser les erreurs, ils seraient grandement appréciés.

— Mephistopheles