Les événements isolés ne sont plus une affaire d'espace ni d'avion. nous les voyons se produire à la surface depuis plus d'une décennie, peut-être deux maintenant.
Comme mentionné cependant, au moins dans les applications spatiales, nous traitons des problèmes en utilisant le triple vote (chaque bit est vraiment trois et un vote sur deux gagne, donc s'il y en a un qui change, les deux autres le couvriront.). Ensuite, ECC ou EDAC , avec des épurateurs qui parcourent la RAM à un taux supérieur au taux de mise à jour prévu d’un événement à l’autre pour nettoyer les événements uniques (ceux qui repoussent effectivement les deux tiers des votes).
Ensuite, il y a la dose totale; au fil du temps, le matériau devient trop radioactif pour fonctionner. Vous utilisez donc suffisamment de matériau pour dépasser la durée de vie du véhicule. Ce n'est pas quelque chose qui nous inquiète normalement à la surface. (Et latchup) L'utilisation de trois / plusieurs ensembles de logique en parallèle est / était un moyen d'essayer de ne pas avoir à utiliser la technologie rad-hard traditionnelle, et bien, vous pouvez voir à quel point cela fonctionne.
Les gens qui savaient comment créer des choses pour l'espace ont pour la plupart pris leur retraite ou sont partis, nous avons donc un certain nombre de programmes qui font de la corbeille de l'espace maintenant. Ou traiter l’espace comme des produits liés à la terre, au lieu d’essayer de faire travailler tout le monde et d’avoir une rentrée contrôlée et de l’épuiser, nous nous attendons maintenant à une certaine quantité de déchets dans l’espace de chaque constellation.
Nous voyons des bouleversements à la surface. Toute clé de mémoire ( DRAM ) que vous achetez a un FIT, Failures In Time, et toute puce contenant de la RAM (tous les processeurs, bien d’autres) aura également une spécification FIT (pour les blocs RAM (SRAM)). La RAM est plus dense et utilise des transistors plus petits, elle est donc plus susceptible d'être perturbée, créée en interne ou externe. La plupart du temps, nous ne le remarquons pas et ne nous en soucions pas, car la mémoire que nous utilisons pour les données, regarder une vidéo, etc. est écrite, lue et non utilisée à nouveau avant d'avoir été utilisée suffisamment longtemps pour être perturbée. Certaines mémoires, comme celles contenant un programme ou le noyau, sont plus risquées. Mais nous sommes depuis longtemps habitués à l’idée de simplement redémarrer notre ordinateur ou de réinitialiser / redémarrer notre téléphone (pour certains téléphones / marques, vous devrez régulièrement retirer la batterie). S'agit-il de bouleversements ou d'un mauvais logiciel ou d'une combinaison?
Les numéros FIT de votre produit individuel peuvent dépasser la durée de vie de ce produit, mais prenons une grande batterie de serveurs, vous tenez compte de la mémoire vive ou des puces, la ferme. Et vous avez ECC pour couvrir ce que vous pouvez de ceux-là. Ensuite, vous répartissez la charge de traitement avec les basculements pour couvrir les ordinateurs ou les logiciels qui ne terminent pas une tâche.
Le désir de stockage à l'état solide et le passage des médias en rotation ont créé un problème lié à cela. La mémoire utilisée pour les disques SSD (et autres mémoires non volatiles) plus rapidement et à moindre coût est beaucoup plus volatile que nous le souhaiterions et repose sur EDAC, car nous perdrions des données sans cela. Ils apportent beaucoup de ressources supplémentaires et font tout le nécessaire, en faisant le calcul pour équilibrer la vitesse, le coût et la longévité du stockage. Je ne nous vois pas revenir en arrière; les gens veulent partout plus de stockage non volatile qui rentre dans un emballage minuscule et ne domine pas le prix du produit.
En ce qui concerne les circuits normaux, depuis le début de l’utilisation des transistors pour les circuits numériques jusqu’au présent, nous passons à travers la partie linéaire du transistor et l’utilisons comme commutateur, nous le cognons entre les rails avec un peu d’excès pour s’assurer qu’il colle . Comme l'interrupteur sur votre mur, vous le retournez à plus de la moitié d'un ressort, aide le reste et le maintient à cet endroit. C'est pourquoi nous utilisons le numérique et n'essayons pas de vivre dans la région linéaire; ils ont essayé tôt, mais ont échoué. Ils ne pouvaient pas rester calibrés.
Nous plaçons donc simplement le transistor dans ses rails et les deux côtés d’un signal s’installeront d’ici le prochain cycle d’horloge. On se donne beaucoup de peine, et les outils actuels sont bien meilleurs qu’auparavant, lors de l’analyse de la conception de la puce, pour faire en sorte qu’il y ait une marge de manoeuvre au moment de la conception. Puis testez chaque puce sur chaque tranche (celle-ci et / ou après l’emballage) pour vérifier que chaque puce est bonne.
Chip Tech s'appuie fortement sur des statistiques basées sur des expériences. Lorsque vous overclockez votre processeur, vous augmentez votre marge, restez dans les limites de la fréquence d'horloge, de la température, etc. annoncées, et vos chances de rencontrer des problèmes sont considérablement réduites. Un processeur xyz à 3 GHz est simplement une puce à 4 GHz qui a échoué à 4 GHz mais qui est passée à 3 GHz. Les pièces sont classées à la vitesse d’une ligne de production.
Il existe également des connexions entre puces ou cartes, qui sont également sujettes à des problèmes, et il faut beaucoup de temps et d’efforts pour élaborer des normes et des conceptions de cartes, etc., afin de limiter les erreurs sur ces interfaces. USB , clavier, souris, HDMI , SATA , etc. Ainsi que toutes les traces sur le tableau. Sur et en dehors du conseil, vous avez des problèmes de diaphonie; encore une fois, de nombreux outils sont disponibles si vous les utilisez ainsi que l'expérience nécessaire pour éviter les problèmes en premier lieu, mais c'est une autre façon de ne pas voir ceux-ci et les zéros être totalement utilisés.
Aucune des technologies, même l’espace, n’est parfaite. Cela doit être suffisant, un pourcentage suffisant du produit doit couvrir la durée de vie attendue du produit. Un certain pourcentage des téléphones intelligents doit durer au moins deux ans, et c'est tout. Les fonderies ou les technologies plus anciennes disposent de plus de données expérimentales et peuvent produire un produit plus fiable, mais il est plus lent et peut-être pas de nouvelles conceptions, alors allez-y. Le tranchant n’est que cela, un pari pour tout le monde.
Pour répondre à votre question spécifique, les transistors situés à chaque extrémité d'un signal sont poussés rapidement dans leur région linéaire et se penchent dans l'un des rails. Une analyse est effectuée sur chaque chemin de combinaison pour déterminer qu'elle va s'installer avant que l'horloge située à la fin du chemin ne le verrouille, de sorte qu'elle soit réellement transformée en zéro ou en un. L'analyse est basée sur des expériences. Les premières puces d'une gamme de produits sont poussées au-delà des limites de la conception. Des tracés schmoo sont créés pour déterminer s'il existe une marge dans la conception. Des variations sont apportées au processus et / ou des candidats individuels sont trouvés qui représentent les puces lentes et rapides. C'est un processus compliqué et certains ont plus de matériel, d'autres moins, fonctionnant plus vite mais utilisant plus d'énergie ou plus lentement, etc.
Vous poussez ceux-ci aussi. Et en gros, vous avez l’impression que le design est acceptable pour la production. JTAG / périmètre de balayage sont utilisés pour exécuter des modèles aléatoires à travers les puces entre chaque état verrouillé pour voir les chemins de combinaison sont tous solides pour une conception. Et là où il y a des problèmes, des tests fonctionnels dirigés peuvent également être effectués. Des tests supplémentaires du premier silicium et peut-être des tests aléatoires pour s'assurer que le produit est bon. Si des pannes surviennent, cela peut vous obliger à effectuer davantage de tests fonctionnels sur la chaîne de production. Il dépend fortement des statistiques / pourcentages. 1/1000000 les mauvais en sortir peut être bon ou 1/1000 ou autre; cela dépend du nombre que vous pensez produire de cette puce.
Les vulnérabilités sont comme mentionné ici et avec d'autres. Tout d’abord, la puce elle-même, la conception et le processus, et la marge la plus faible d’une puce spécifique dans le produit que vous avez acheté. Si trop près du bord, le changement de température ou autre peut causer des problèmes de synchronisation et les bits verrouillent les données qui ne se sont pas stabilisées à un ou zéro. Ensuite, il y a des événements uniques. Et puis il y a du bruit. encore des trucs déjà mentionnés ...