Pourquoi les puces commencent-elles à mal fonctionner une fois qu'elles ont surchauffé?


26

Une fois qu'une puce surchauffe, elle peut commencer à mal fonctionner - par exemple, de nombreux programmes peuvent commencer à échouer une fois que certaines ou toutes les pièces d'un ordinateur surchauffent.

Que se passe-t-il exactement qui fait que les puces fonctionnent mal lorsqu'elles surchauffent?

Réponses:


26

Pour développer d'autres réponses.

  1. Courants de fuite plus élevés: cela peut entraîner plus de problèmes de chauffage et peut facilement entraîner un emballement thermique.
  2. Le rapport signal / bruit diminue à mesure que le bruit thermique augmente : cela peut entraîner un taux d'erreur binaire plus élevé, ce qui entraînera une mauvaise lecture d'un programme et une mauvaise interprétation des commandes. Cela peut provoquer un fonctionnement "aléatoire".
  3. Les dopants deviennent plus mobiles avec la chaleur. Lorsque vous avez une puce entièrement surchauffée, le transistor peut cesser d'être des transistors. C'est irréversible.
  4. Un chauffage inégal peut entraîner la dégradation de la structure cristalline du Si. Une personne normale peut ressentir un choc thermique. Cela va éclater, un peu à l'extrême, mais cela illustre le point. C'est irréversible.
  5. Les mémoires ROM qui dépendent d'une plaque isolée chargée pourront perdre de la mémoire à mesure que la température augmente. L'énergie thermique, si elle est suffisamment élevée, peut permettre à l'électronique de s'échapper du conducteur chargé. Cela peut corrompre la mémoire du programme. Cela m'arrive régulièrement lors du soudage de circuits intégrés qui sont déjà programmés lorsque quelqu'un surchauffe la puce.
  6. Perte de contrôle des transistors: avec suffisamment d'énergie thermique, vos électrons peuvent sauter la bande interdite. Un semi-conducteur est un matériau qui a une petite bande interdite de sorte qu'il est facilement ponté avec des dopants mais suffisamment grand pour que la température de fonctionnement requise ne le transforme pas en un conducteur où l'écart est plus petit que l'énergie thermique du matériau. C'est une simplification excessive et est la base d'un autre article, mais je voulais l'ajouter et le mettre dans mes propres mots.

Il y a d'autres raisons, mais celles-ci en font quelques-unes importantes.


Il semble probable que les défaillances de synchronisation seraient l'une des "autres raisons" (la résistance des fils a tendance à augmenter avec la température, donc les chemins de synchronisation limités en résistance-capacité pourraient violer leur pire temps garanti). Bien sûr, la DRAM fuit également la charge (comme la mémoire flash) plus rapidement à des températures plus élevées; sans compensation dans le taux de rafraîchissement, les données peuvent être perdues.
Paul A. Clayton

13

Le principal problème avec le fonctionnement des circuits intégrés à des températures élevées est le courant de fuite considérablement accru des transistors individuels. Le courant de fuite peut augmenter à un point tel que les niveaux de tension de commutation des appareils sont affectés, de sorte que les signaux ne peuvent pas se propager correctement à l'intérieur de la puce et cesser de fonctionner. Ils récupèrent généralement lorsqu'ils sont autorisés à se refroidir, mais ce n'est pas toujours le cas.

Les processus de fabrication pour un fonctionnement à haute température (jusqu'à 300 ° C) utilisent la technologie CMOS silicium sur isolant en raison de la faible fuite sur une très large plage de températures.


9

Juste un ajout à quelques excellentes réponses: Techniquement, ce ne sont pas les dopants qui deviennent plus mobiles, c'est une augmentation de la concentration intrinsèque des porteurs. Si quoi que ce soit, les dopants / supports deviennent moins mobiles lorsque le réseau de cristaux de silicium commence à "vibrer" en raison de l'augmentation de l'énergie thermique, ce qui rend plus difficile le passage des électrons et des trous à travers l'appareil - la diffusion optique des phonons, je pense que la phsyique l'appelle mais je peux se tromper.

Lorsque la concentration intrinsèque du porteur augmente au-delà du niveau de dopage, vous perdez le contrôle électrique de l'appareil. Les porteurs intrinsèques sont ceux qui sont là avant de doper le silicium, l'idée des semi-conducteurs est que nous ajoutons nos propres porteurs pour générer des jonctions pn et les autres choses intéressantes que font les transistors. Le silicium dépasse environ 150 degrés Celsius, donc les radiateurs RF et les processeurs haute vitesse à dissipation thermique sont très importants, car 150 degrés Celsius n'est pas trop difficile à réaliser dans la pratique. Il existe un lien direct entre la concentration intrinsèque du support et le courant de fuite hors tension d'un appareil.

Comme les autres types l'ont montré, ce n'est qu'une des raisons pour lesquelles les puces échouent - cela peut même se résumer à quelque chose d'aussi simple qu'une liaison filaire trop chaude et se détachant de son bloc, il y a une énorme liste de choses.


Quand je dis que les dopants deviennent plus mobiles, je veux dire les atomes physiques, pas les porteurs. La jonction PN peut dériver et cesser d'être une diode avec le temps et la chaleur. Deuxièmement, lorsque vous obtenez une température suffisamment élevée, votre énergie thermique, qui crée à la fois des phonons de haute énergie qui interagissent avec les électrons et des niveaux IR beaucoup plus élevés à l'intérieur de la structure, peut donner aux électrons suffisamment d'énergie pour sauter la bande interdite entre les couches de conduction et de valence . Le Si dépasse parce que sa bande interdite est telle que 150degC donnera aux électrons la capacité de sauter.
Kortuk

Oui, je pense que nous disons la même chose juste à partir d'un point de départ différent.
SimonBarker

1
La façon dont vous l'expliquez sonne exactement comme je le ferais après avoir pris la physique des appareils, après avoir pris des appareils Quantum appliqués et à semi-conducteurs, je le dis un peu différemment, mais nous savons tous les deux à quel point ces explications sont simplifiées. J'ai ajouté un peu cet effet à ma réponse car je pense que c'est très important, je vous ai donné votre premier +1, que vous méritiez. Ceci est un effet important car il conduit très rapidement à un emballement thermique.
Kortuk

8

Bien que les courants de fuite augmentent, je m'attendrais à un problème plus important pour de nombreux appareils basés sur MOS: la quantité de courant traversant un transistor MOS à l'état "passant" diminuera à mesure que l'appareil chauffe. Pour qu'un dispositif fonctionne correctement, un transistor qui commute un nœud doit être capable de charger ou de décharger toute capacité latente dans cette partie du circuit avant que quoi que ce soit d'autre repose sur la commutation de ce nœud. La réduction de la capacité de passage de courant des transistors réduira la vitesse à laquelle ils peuvent charger ou décharger les nœuds. Si un transistor est incapable de charger ou de décharger un nœud suffisamment avant qu'une autre partie du circuit ne dépende de la commutation de ce nœud, le circuit fonctionnera mal.

Notez que pour les appareils NMOS, il y a eu un compromis de conception lors du dimensionnement des transistors passifs de rappel; plus un pull-up passif est grand, plus le nœud peut passer rapidement de bas à élevé, mais plus d'énergie est gaspillée chaque fois que le nœud est bas. Beaucoup de ces appareils fonctionnaient donc quelque peu à la limite du bon fonctionnement et les dysfonctionnements liés à la chaleur étaient (et pour l'électronique vintage, restent) assez courants. Pour l'électronique CMOS courante, ces problèmes sont généralement moins graves; Je n'ai aucune idée dans la pratique de la mesure dans laquelle ils jouent un rôle dans des choses comme les processeurs multi-GHZ.


2
C'est un effet très important, j'allais demander à Kortuk de l'ajouter à sa réponse. Un des facteurs derrière la spécification Tj max pour un processeur est qu'au-dessus de cette Tj, le processeur peut ne pas fonctionner à la vitesse nominale. C'est aussi pourquoi un meilleur refroidissement contribue à l'overclocking.
Andy

Le premier paragraphe explique pourquoi votre ordinateur cesse de fonctionner lorsqu'il fait chaud - il ralentit trop pour suivre le rythme de la fréquence d'horloge.
W5VO

En fait, il y a un autre facteur qui a peut-être joué un rôle dans les appareils NMOS, bien que je ne m'y attendrais pas dans la plupart des conceptions typiques: de nombreux appareils NMOS avaient des vitesses d'horloge minimales , imposées par l'obligation d'utiliser ou de rafraîchir les données dans les nœuds de stockage dynamiques avant qu'il ne soit drainé par une fuite. Si les courants de fuite augmentent avec la température, la vitesse d'horloge minimale augmenterait également. Je soupçonne que la plupart des appareils fonctionnaient suffisamment au-dessus de la vitesse d'horloge minimale pour qu'une augmentation de la vitesse minimale ne soit pas un problème, mais je ne suis pas sûr.
supercat

@Andy, @ W5VO, j'écrivais ma réponse hier soir et j'ai oublié cela à mi-chemin. Le quart de nuit endommage votre cerveau.
Kortuk

2

Pour compléter les réponses existantes, les circuits d'aujourd'hui sont sensibles aux deux effets de vieillissement suivants (non seulement ceux-ci, mais ce sont les principaux sur les processus <150 nm):

Parce que la température augmente la mobilité des porteurs, elle augmente les effets HCI et NBTI, mais la température n'est pas la principale cause de NBTI et HCI:

  • HCI est causé par une haute fréquence
  • NBTI par une haute tension

Ces deux effets de vieillissement du silicium provoquent des dommages à la fois réversibles et irréversibles aux transistors (en affectant / détériorant les substrats isolants) qui augmentent le seuil de tension du transistor (Vt). En conséquence, la pièce nécessitera une tension plus élevée pour maintenir le même niveau de performance, ce qui implique une augmentation de la température de fonctionnement et, comme indiqué dans d'autres articles, une fuite de grille de transistor accrue suivra.

Pour résumer, la température ne fera pas vraiment vieillir la pièce plus rapidement, ce sont la fréquence et la tension plus élevées (c'est-à-dire l'overclocking) qui feront vieillir la pièce. Mais le vieillissement des transistors nécessitera une tension de fonctionnement plus élevée, ce qui fera chauffer davantage la pièce.

Corolaire: la conséquence de l'overclocking est une augmentation de la température et de la tension requise.


1

La raison générale pour laquelle les circuits intégrés échouent de manière irréversible est que le métal en aluminium à l'intérieur d'eux est utilisé pour créer des interconnexions entre les différents éléments fond et ouvre ou court-circuite les appareils.

Oui, les courants de fuite augmenteront, mais généralement ce n'est pas le courant de fuite lui-même qui pose problème, mais la chaleur que cela provoque et les dommages qui en résultent pour le métal à l'intérieur du circuit intégré.

Les circuits de puissance (par exemple, les blocs d'alimentation, les pilotes de courant élevé, etc.) peuvent être endommagés car à des tensions élevées, lorsque les pilotes de transistor s'arrêtent rapidement, des courants internes sont générés, ce qui provoque un verrouillage de l'appareil, ou une distribution d'énergie inégale à l'intérieur qui provoque des perturbations locales. chauffage et rupture de métal subséquente.

Un grand nombre (1000) de cycles thermiques répétés peut provoquer une défaillance en raison de disparités entre l'expansion mécanique du circuit intégré et le boîtier, entraînant éventuellement l'arrachement des fils de liaison ou la délimitation du matériau du boîtier en plastique et une défaillance mécanique ultérieure.

Bien sûr, un grand nombre de spécifications paramétriques IC ne sont spécifiées que sur une plage de température donnée, et celles-ci peuvent ne pas être conformes aux spécifications en dehors de cela. Selon la conception, cela peut entraîner une défaillance ou un décalage paramétrique inacceptable (alors que le CI est en dehors de la plage de température) - cela peut se produire pour des températures extrêmement élevées ou basses.


L'aluminium fond à 660 ° C (1220 ° F). Les CI meurent bien avant que cette température ne soit atteinte.
Dmitry Grigoryev

Fondamentalement non. À des températures inférieures à cela, vous pouvez certainement obtenir un comportement électrique indésirable; échauffement excessif et emballement thermique, mais cela ne provoque pas de défaillance permanente jusqu'à ce qu'une partie du circuit atteigne une température où l'Al (ou un autre métal) se diffuse dans le silicium. Ce (point eutectique) est d'environ 500-600 C. La plupart des autres défaillances sont récupérables. Des défaillances supplémentaires peuvent être causées par des dysfonctionnements électriques permettant d'appliquer une tension excessive aux grilles du transistor ou aux cycles thermiques (qui provoquent des défaillances mécaniques).
jp314

J'ai toujours mes doutes. Par exemple, les CI spécifient généralement une température de soudage maximale d'environ 300 ° C, il semble donc que le dépassement de cette limite soit suffisant pour causer des dommages permanents.
Dmitry Grigoryev
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.