Quel support devrait être utilisé pour le stockage à long terme (archivage) de gros volumes de données?


59

Cette question a été inspirée par https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data . Il y a eu d'autres questions similaires, mais aucune avec les mêmes critères.

C'est deux questions en une.

  1. Comment stockez-vous des enregistrements financiers / critiques qui devraient survivre à tout sauf à un incendie et devraient être disponibles pendant des décennies?
  2. Disons que je veux stocker des photos / vidéos de famille et que je souhaite que les gens puissent les retrouver de manière stockée dans 100 ans et pouvoir toujours les utiliser. Comment cela serait-il fait?

Critères

  1. Long terme signifie plus de 30 ans garantis . 100 ans en moyenne. [Si cela n’est pas pratique, utilisez la solution la plus proche]
  2. Un volume élevé signifie quelques téraoctets.
  3. Les réponses peuvent être des solutions «sans compromis / industrielles» ou des solutions pratiques pour les particuliers et les petites entreprises.
  4. Le média ne sera pas actif pendant la période. (Par exemple, si vous suggérez des disques durs, ils ne tourneront pas).
  5. De plus, il n’ya aucune attente de lire ces archives. Ils sont là pour l'urgence ou "pour les générations futures".
  6. Ne devrait pas nécessiter d'entretien (si possible).

Mes pensées:

  1. Les CD-R / DVD-R se sont révélés, même à court terme, un terrible support pour les sauvegardes. Ils semblent très fragiles et perdent très rapidement leurs données, même en parfait état.
  2. Je ne peux m'empêcher de penser que stocker des données sur deux disques durs de 1 To et s'attendre à ce qu'ils se produisent correctement une décennie ou deux plus tard est une idée terrible. Ai-je tort?
  3. Les lecteurs de bande industriels semblent être une option viable?

Je ne suis pas un expert, mais je dirais une bande. Cette question est peut-être meilleure sur Server Fault, mais honnêtement, je ne pense pas que cela convienne parfaitement à l'un ou à l'autre, je vais donc refuser de voter. C'est une bonne question et devrait vivre quelque part.
Shinrai

Je suis d'accord avec Shinrai. Je suis le bienvenu pour déplacer ceci ailleurs si quelqu'un peut commenter où il devrait vivre.
user606723

4
Si vous ne voulez aucun compromis, il existe une technologie existante conçue pour durer au moins 40 000 ans sans intervention: voyager.jpl.nasa.gov/spacecraft/goldenrec.html
fixer1234

L'avenir est dans les cristaux, il peut potentiellement stocker 360 To et durer un million d'années. See: 5D 'Le cristal de mémoire Superman' annonce une
solution de

Réponses:


20

Papier

Hormis l'encre d'archives sur papier d'archives stocké sous scellé, il est prouvé qu'aucun support actuel ne dure en moyenne 100 ans sans aucune forme de maintenance.

Papier d'archives

Les papiers plus anciens étaient fabriqués à partir de matériaux tels que le lin et le chanvre, et sont donc naturellement alcalins. ou sans acide, donc pendant des centaines d'années. Le papier du XXe siècle et le papier le plus moderne sont généralement fabriqués à partir de pâte de bois, qui est souvent acide et ne se conserve pas longtemps.

Encres d'archives

Ces encres permanentes qui ne se décolorent pas sont résistantes à la lumière, à la chaleur et à l'eau et ne contiennent aucune impureté pouvant nuire à la permanence du papier ou des supports photographiques. Les encres Black Actinic sont chimiquement stables et contiennent un pigment inorganique qui n'a pas tendance à absorber les impuretés, contrairement à d'autres pigments d'encre.

Stockage redondant

Torvalds a dit une fois

Seuls les wimps utilisent la sauvegarde sur bande: _real_ men télécharge simplement leurs données importantes sur ftp et laisse le reste du monde les imiter

Ce qui suggère que vous ne devriez pas vous fier à une copie unique sur un seul support.

Pas de support magnétique?

http://www.zdnet.com/blog/perlow/the-bell-tolls-for-your-magnetic-media/9364?tag=content;siu-container

  • Exemple typique de dégradation irrémédiable de supports magnétiques.
  • Problèmes de matériel et de logiciels (et formats de données)

Systèmes non spécialisés

En 2002, on craignait beaucoup que les disques ne deviennent illisibles car les ordinateurs capables de lire le format étaient devenus rares et les lecteurs capables d'accéder aux disques encore plus rares. Outre la difficulté à émuler le code original, un problème majeur résidait dans le fait que les images fixes avaient été stockées sur le disque laser sous forme de vidéo analogique à une image.

http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation

Stockage personnel à long terme

http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376

  • le support ET le format peuvent devenir illisibles.
  • imprimez sur du papier sans acide avec des encres pigmentées et stockez-le dans un endroit frais, sec et sombre.
  • Le premier problème est de choisir des formats de données pour une longévité maximale.
  • Évitez d'utiliser des formats propriétaires
  • USCSF transfère toutes ses bandes originales - dont beaucoup dans des formats devenus obsolètes tels que BetaSP et VHS - au format motionMejPEG2000 à 75 Mbits / s

1
1) Pouvez-vous fournir des détails à ce sujet? Les copies papier normales ne dureront-elles pas aussi longtemps? (Les photos d'il y a 100 ans semblent aller bien, autant que je sache). 2) Si aucun support de données actuel ne durera aussi longtemps, je suggère d'utiliser la solution la plus proche possible. Il est déprimant de constater que, dans des décennies, nous ne pourrons plus regarder dans de vieilles boîtes et nous nous attendons à pouvoir regarder nos vieilles photos oubliées, etc.
user606723

@ user606723: voir la réponse mise à jour
RedGrittyBrick le

J'ai pensé que l'impression laser sur du papier sans acide serait un bon moyen de stocker des données (quelques mégaoctets par page) dont la probabilité d'être lisible est grande dans 100 à 200 ans. Le logiciel pour le lire serait relativement simple, et on suppose que les scanners seront toujours disponibles, de sorte que le format (aussi longtemps que cela ne soit pas trop compliqué) ne "disparaîtra" jamais vraiment au-delà de la capacité de récupération d'un amateur compétent.
Daniel R Hicks

64

Réponse courte

Il est impossible de garantir une longue période à cause de l'entropie (également appelée mort!). Les données numériques se décomposent et meurent, comme toute autre chose dans l'univers. Mais cela peut être ralenti.

Il n'existe actuellement aucun moyen fiable et scientifiquement prouvé de garantir plus de 30 ans d'archivage de données froides. Certains projets visent à le faire, comme le projet Rosetta Disks du musée Long Now , bien qu'ils restent très coûteux et avec une faible densité de données (environ 50 Mo).

Entre-temps, vous pouvez utiliser des supports optiques résilients éprouvés scientifiquement pour le stockage frigorifique, tels que les disques Blu-ray type HTL tels que Panasonic ou les DVD + R de type archivistique tels que Verbatim Gold Archival, et les conserver dans un endroit protégé haute température) et hors de la lumière.

Soyez également REDONDANT : créez plusieurs copies de vos données (au moins 4) et calculez les hachages pour vérifier régulièrement que tout va bien, et toutes les quelques années, vous devez réécrire vos données sur de nouveaux disques. En outre, utilisez beaucoup de codes de correction d’erreur , ils vous permettront de réparer vos données corrompues!

Longue réponse

Pourquoi les données sont-elles corrompues avec le temps? La réponse réside dans un mot: entropie . C’est l’une des forces principales et inévitables de l’univers, qui rend les systèmes de moins en moins ordonnés dans le temps. La corruption de données est exactement cela: un désordre dans l'ordre des bits. En d'autres termes, l'univers déteste vos données .

Combattre l'entropie, c'est comme combattre la mort: vous ne réussirez probablement jamais. Mais vous pouvez trouver des moyens de ralentir la mort, tout comme vous pouvez ralentir l'entropie. Vous pouvez également tromper l'entropie en réparant les corruptions (en d'autres termes: vous ne pouvez pas arrêter les corruptions, mais vous pouvez les réparer après qu'elles se soient produites si vous avez pris des mesures à l'avance!). Comme pour tout ce qui concerne la vie et la mort, il n’existe pas de solution miracle, ni de solution unique pour tous, et les meilleures solutions vous obligent à vous engager directement dans la conservation numérique de vos données. Et même si vous faites tout correctement, vous n'êtes pas assuré de garder vos données en sécurité, vous maximisez seulement vos chances.

Maintenant, bonne nouvelle: il existe maintenant des moyens assez efficaces de conserver vos données si vous combinez des supports de stockage de bonne qualité et de bonnes stratégies d'archivage / conservation : vous devez concevoir en cas d'échec .

Quelles sont les bonnes stratégies de curation? Soyons clairs: la plupart des informations que vous trouverez concerneront les sauvegardes, et non l'archivage. Le problème est que la plupart des gens vont transférer leurs connaissances sur les stratégies de sauvegarde aux archives, et ainsi beaucoup de mythes sont maintenant entendus. En effet, stocker des données pendant quelques années (sauvegarde) et les stocker le plus longtemps possible (au moins plusieurs décennies) (archivage) sont des objectifs totalement différents et nécessitent donc des outils et des stratégies différents.

Heureusement, il y a beaucoup de recherches et de résultats scientifiques, je vous conseille donc de vous référer à ces articles scientifiques plutôt que sur des forums ou des magazines. Ici, je vais résumer certaines de mes lectures.

Aussi, méfiez-vous des allégations et des études scientifiques non indépendantes , prétendant que tel ou tel moyen de stockage est parfait. Rappelez-vous le célèbre projet BBC Domesday: «Digital Domesday Book dure 15 ans et non pas 1000» . Vérifiez toujours les études avec des papiers vraiment indépendants, et s'il n'y en a pas, supposez toujours que le support de stockage n'est pas bon pour l'archivage.

Clarifions ce que vous recherchez (d'après votre question):

  • Archivage à long terme : vous souhaitez conserver des copies de vos données "personnelles" sensibles et non reproductibles. L'archivage est fondamentalement différent de la sauvegarde , comme expliqué ici : les sauvegardes concernent des données techniques dynamiques régulièrement mises à jour et doivent donc être actualisées dans les sauvegardes (par exemple, le système d'exploitation, la disposition des dossiers de travail, etc.), tandis que les archives sont des données statiques qui vous n'écririez probablement qu'une fois et ne lisiez que de temps en temps . Les archives sont destinées à des données intemporelles , généralement personnelles.

  • Stockage à froid : vous voulez éviter autant que possible la maintenance de vos données archivées. Il s’agit là d’une contrainte BIG, car le support doit utiliser des composants et une méthodologie d’écriture qui restent stables pendant très longtemps, sans aucune manipulation de votre part, et sans nécessiter de connexion à un ordinateur ni à une alimentation électrique.

Pour faciliter notre analyse, étudions d’abord les solutions d’entreposage frigorifique, puis les stratégies d’archivage à long terme.

Milieu de stockage à froid

Nous avons défini ci-dessus ce que devrait être un bon support de stockage à froid: il devrait conserver les données pendant une longue période sans aucune manipulation (c'est pourquoi on l'appelle "froid": vous pouvez simplement le stocker dans un placard et vous n'avez pas besoin de le brancher) un ordinateur pour gérer les données).

Le papier peut sembler être le support de stockage le plus résistant sur Terre, car nous trouvons souvent des manuscrits très anciens datant d’antiquités. Cependant, le papier présente des inconvénients majeurs: premièrement, la densité de données est très faible (ne peut pas stocker plus de 100 Ko sur un papier, même avec des caractères et des outils informatiques minuscules), et il se dégrade avec le temps sans aucun moyen de le contrôler: le papier , tout comme les disques durs, souffrent de corruption silencieuse. Mais alors que vous pouvez surveiller les corruptions silencieuses sur des données numériques, vous ne pouvez pas sur papier. Par exemple, vous ne pouvez pas garantir qu’une image conservera les mêmes couleurs pendant une décennie seulement: les couleurs se dégradent et vous n’avez aucun moyen de trouver les couleurs originales. Bien sûr, vous pouvez organiser vos images si vous êtes un professionnel de la restauration, mais cela prend beaucoup de temps, alors qu'avec les données numériques, vous pouvez automatiser ce processus de curation et de restauration.

Disques durs (HDD) de sont connus pour avoir une durée de vie moyenne de 3 à 8 ans: ils ne se dégradent un peu plus de temps, ils sont garantis finissent par mourir (ex: inaccessible). Les courbes suivantes montrent cette tendance pour tous les disques durs à mourir à une vitesse vertigineuse:

Courbe de la baignoire illustrant l'évolution du taux d'échec du lecteur de disque dur, en fonction du type d'erreur (également applicable à tout appareil technique):

curve-hdd1

Courbe indiquant le taux d'échec du disque dur, tous les types d'erreur ont été fusionnés: curve-hdd2

Source: Backblaze

Vous pouvez voir qu'il existe 3 types de disques durs relativement à leur défaillance: les modèles qui meurent rapidement (par exemple: erreur de fabrication, disques durs de mauvaise qualité, défaillance de la tête, etc.), ceux à taux de mort constant (bonne fabrication, ils meurent pour divers " raisons "normales", c’est le cas de la plupart des disques durs), et enfin des plus robustes qui vivent un peu plus longtemps que la plupart des disques durs et finissent par mourir peu de temps après les "normales" (par exemple: des disques durs chanceux, peu utilisés, conditions environnementales idéales, etc.). Ainsi, vous êtes assuré que votre disque dur mourra.

Pourquoi les disques durs meurent si souvent? Je veux dire, les données sont écrites sur un disque magnétique, et le champ magnétique peut durer des décennies avant de s'estomper. Ils meurent parce que le support de stockage (disque magnétique) et le matériel de lecture (carte électronique + tête rotative) sont couplés : ils ne peuvent pas être dissociés, vous ne pouvez pas simplement extraire le disque magnétique et le lire avec une autre tête, car la carte électronique (qui convertit les données physiques en numérique) est différente pour presque chaque disque dur (même de la même marque et référence, cela dépend de l'usine d'origine), et le mécanisme interne avec la tête rotative est si complexe qu'il est aujourd'hui impossible de le faire pour un humain de placer parfaitement une tête en rotation sur des disques magnétiques sans les tuer.

De plus, les disques durs sont connus pour se démagnétiser avec le temps s'ils ne sont pas utilisés (y compris les disques SSD). Ainsi, vous ne pouvez pas simplement stocker des données sur un disque dur, les stocker dans un placard et penser qu’elles seront conservées sans aucune connexion électrique: vous devez connecter votre disque dur à une source électrique au moins une fois par an ou par couple d’années . Ainsi, les disques durs ne sont clairement pas adaptés à la conservation par le froid.

Bandes magnétiques : elles sont souvent décrites comme étant la solution idéale pour les besoins en matière de sauvegarde et, par extension, pour l'archivage. Le problème des bandes magnétiques est qu’elles sont TRÈS sensibles: les particules d’oxyde magnétique peuvent être facilement détériorées par le soleil, l’eau, l’air, les rayures, être démagnétisées par le temps ou par tout dispositif électromagnétique ou tout simplement tomber avec le temps ou par impression . C'est pourquoi ils ne sont généralement utilisés que dans des centres de données par des professionnels. En outre, il n’a jamais été prouvé qu’ils pouvaient conserver des données plus d’une décennie. Alors, pourquoi sont-ils souvent conseillés pour les sauvegardes? Parce qu'ils étaient bon marché: à l'époque, l'utilisation des bandes magnétiques coûtait de 10 à 100 fois moins chère que celle des disques durs, et les disques durs avaient tendance à être beaucoup moins stables qu'aujourd'hui. Donc, les bandes magnétiques sont principalement conseillées pour les sauvegardes en raison de la rentabilité, pas par résilience, c’est ce qui nous intéresse le plus pour l’archivage des données.

Les cartes CompactFlash et Secure Digital (SD) sont connues pour être assez robustes et capables de résister à des conditions catastrophiques .

Les cartes mémoire de la plupart des appareils photo sont pratiquement indestructibles, selon le magazine Digital Camera Shopper. Cinq formats de carte mémoire ont survécu après avoir été bouillis, piétinés, lavés et trempés dans du café ou du cola.

Cependant, comme tout autre support magnétique, il repose sur un champ électrique pour conserver les données. Par conséquent, si la carte manque de temps, les données risquent d'être totalement perdues. Ainsi, cela ne convient pas parfaitement au stockage à froid (car il est parfois nécessaire de réécrire toutes les données de la carte pour actualiser le champ électrique), mais cela peut être un bon support pour les sauvegardes et l’archivage à court ou à moyen terme.

Supports optiques: les supports optiques sont une classe de supports de stockage reposant sur le laser pour lire les données, comme les CD, DVD ou Blu-ray (BD). Cela peut être vu comme une évolution du papier, mais nous rédigeons les données dans un format si petit que nous avions besoin d’un matériau plus précis et plus résistant que le papier, et les disques optiques ne sont que cela. Les deux principaux avantages des supports optiques sont que le support de stockage est découplé du matériel de lecture (par exemple, si votre lecteur de DVD tombe en panne, vous pouvez toujours en acheter un autre pour lire votre disque) et qu'il est basé sur le laser, qui le rend universel preuve d’avenir (c’est-à-dire que tant que vous savez fabriquer un laser, vous pouvez toujours le modifier pour lire les bits d’un disque optique par émulation, comme l’a fait CAMILEON pour le projet Domesday BBC ).

Comme toute technologie, les nouvelles itérations offrent non seulement une plus grande densité (espace de stockage), mais également une meilleure correction des erreurs et une meilleure résistance à la dégradation de l'environnement (pas toujours, mais généralement vrai). Le premier débat sur la fiabilité d'un DVD a opposé DVD-R à DVD + R, et même si les DVD-R sont encore courants, les DVD + R sont reconnus pour être plus fiables et plus précis . Il existe maintenant des DVD de qualité archivistique, spécialement conçus pour le stockage à froid, affirmant qu’ils peuvent résister à un minimum de ~ 20 ans sans aucun entretien:

Le DVD-R Verbatim Gold Archival [...] a été classé comme le DVD-R le plus fiable lors d'un test de résistance approfondi à long terme par le magazine allemand bien connu c't (c't 16/2008, pages 116-123 ) atteignant une durabilité minimale de 18 ans et moyenne de 32 à 127 ans (à 25 ° C, 50% d'humidité). Aucun autre disque n’a été aussi proche de ces valeurs, le deuxième meilleur DVD-R n’a duré que 5 ans.

De LinuxTech.net .

En outre, certaines sociétés se sont spécialisées dans l' archivage de DVD à très long terme et en ont largement commercialisé, comme le M-Disc de Millenniata ou le DataTresorDisc, affirmant qu'elles peuvent conserver des données pendant plus de 1000 ans et vérifiées par des études ( non indépendantes) (de 2009) parmi les moins scientifiques .

Tout cela semble très prometteur! Malheureusement, il n'y a pas assez d'études scientifiques indépendantes pour confirmer ces affirmations, et les rares qui sont disponibles ne sont pas aussi enthousiastes:

L'humidité (80% HR) et la température (80 ° C) ont accéléré le vieillissement de plusieurs DVD sur plus de 2000 heures (environ 83 jours) de test avec un contrôle régulier de la lisibilité des données: Humidité et vieillissement accéléré sur plusieurs marques de DVD

Traduit de l'Institut français d'archivage de données numériques (Archives de France), étude réalisée en 2012.

Le premier graphique montre les DVD avec une lente évolution de la dégradation. Le second DVD avec des courbes de dégradation rapide. Et le troisième concerne les DVD spéciaux "à très long terme" tels que M-Disc et DataTresorDisc. Comme nous pouvons le constater, leurs performances ne correspondent pas tout à fait aux revendications, étant inférieures ou égales aux DVD standard non archivistiques!

Cependant, les disques optiques inorganiques tels que M-Disc et DataTresorDisc ont un avantage: ils sont assez insensibles à la dégradation par la lumière:

Vieillissement accéléré à la lumière (750 W / m²) pendant 240 heures: Vieillissement accéléré sur plusieurs marques de DVD

Ce sont d'excellents résultats, mais un DVD de qualité archivistique tel que Verbatim Gold Archival atteint également les mêmes performances. De plus, la lumière est le paramètre le plus contrôlable pour un objet: il est assez facile de placer un DVD dans une boîte fermée ou un placard. en supprimant tout impact possible de la lumière. Il serait beaucoup plus utile d’avoir un DVD très résistant à la température et à l’humidité que la lumière.

Cette même équipe de recherche a également étudié le marché des disques Blu-ray pour déterminer s'il existait une marque offrant un bon support pour le stockage à froid à long terme. Voici leur conclusion:

Le vieillissement accéléré en température et en humidité sur plusieurs marques de disques Blu-ray, avec les mêmes paramètres que pour les DVD: temp-bd

Vieillissement accéléré sur plusieurs marques BluRays, mêmes paramètres: light-bd

Traduit de cette étude d'Archives de France, 2012.

Deux résumés de tous les résultats ici et ici .

En résumé, le meilleur disque Blu-ray (de Panasonic) a des performances similaires à celles du meilleur DVD de qualité archivistique en test d’humidité + température, tout en étant pratiquement insensible à la lumière! Et ce disque Blu-ray n’est même pas de qualité archivistique. De plus, les disques Blu-ray utilisent un code de correction d'erreur amélioré par rapport aux DVD (utilisant eux-mêmes une version améliorée par rapport aux CD), ce qui minimise davantage les risques de perte de données. Ainsi, il semble que certains disques BluRay peuvent constituer un très bon choix pour le stockage à froid.

En effet, certaines entreprises commencent à travailler sur des disques Blu-ray de stockage haute densité de qualité archivistique tels que Panasonic et Sony, en annonçant qu'elles pourront offrir une capacité de stockage de 300 Go à 1 To avec une durée de vie moyenne de 50 ans. De plus, les grandes entreprises se tournent vers des supports optiques pour le stockage à froid (car ils consomment beaucoup moins de ressources car ils peuvent être stockés à froid sans aucune alimentation électrique), comme Facebook qui a développé un système robotique permettant d'utiliser les disques Blu-ray comme des disques "à froid". stockage " pour les données auxquelles leur système a rarement accès.

Initiative archivistique Long Now: Il existe d’autres pistes intéressantes, comme le projet Rosetta Disc du musée Long Now , qui consiste à écrire des pages de la Genèse à l’échelle microscopique dans toutes les langues sur lesquelles elle a été traduite. C’est un projet formidable, qui est le premier à offrir un support permettant de stocker 50 Mo pour un stockage à froid vraiment à très long terme (car il est écrit en carbone), et avec un accès évolutif car il suffit d’une loupe pour accéder au données (pas de spécifications de format étranges ni de problèmes technologiques à gérer comme le faisceau violet du Blu-ray, il suffit juste d’une loupe!). Cependant, ceux-ci sont toujours fabriqués manuellement et coûtent donc environ 20 000 dollars, ce qui est un peu trop pour un système d'archivage personnel, je suppose.

Solutions basées sur Internet: Encore un autre moyen de stocker vos données en froid sur le net. Cependant, les solutions de sauvegarde sur le cloud ne conviennent pas, car la principale préoccupation que les sociétés d'hébergement en nuage peuvent ne pas vivre aussi longtemps que vous souhaitez conserver vos données. D'autres raisons incluent le fait qu'il est terriblement lent à sauvegarder (puisqu'il transfère via Internet) et que la plupart des fournisseurs exigent que les fichiers existent aussi sur votre système pour les garder en ligne. Par exemple, CrashPlan et Backblaze supprimeront définitivement les fichiers qui ne sont pas vus au moins une fois sur votre ordinateur au cours des 30 derniers jours. Par conséquent, si vous souhaitez télécharger des données de sauvegarde que vous stockez uniquement sur des disques durs externes, vous devrez brancher votre ordinateur. Disque dur USB au moins une fois par mois et synchronisez-le avec votre nuage pour réinitialiser le compte à rebours. cependant, Certains services en nuage offrent la possibilité de conserver vos fichiers indéfiniment (à condition que vous payiez bien entendu) sans compte à rebours, comme SpiderOak. Faites donc très attention aux conditions et à l’utilisation de la solution de sauvegarde sur cloud que vous choisissez.

Une alternative aux fournisseurs de sauvegarde en nuage est de louer votre propre serveur privé en ligne et, si possible, d’en choisir un avec sauvegarde / sauvegarde automatique de vos données en cas de défaillance matérielle de leur côté (quelques-uns vous garantissent même contre la perte de données dans leurs contrats). , mais bien sur c’est plus cher). C'est une excellente solution, d'abord parce que vous possédez toujours vos données, et ensuite parce que vous n'avez pas à gérer les pannes matérielles, cette tâche incombe à votre hôte. Et si un jour votre hôte cesse ses activités, vous pouvez toujours récupérer vos données (choisissez un hôte sérieux pour qu'il ne s'éteigne pas la nuit mais le prévient au préalable, vous pouvez peut-être demander de l'inscrire dans le contrat), et réhéberger ailleurs.

Si vous ne souhaitez pas configurer votre propre serveur en ligne privé et si vous en avez les moyens, Amazon propose un nouveau service d'archivage de données, appelé Glacier . Le but est exactement de stocker à froid vos données sur le long terme: il est donc coûteux de stocker des données sur un glacier, mais cela coûte encore plus cher de récupérer ces données, car ce service est conçu pour stocker des données hors de portée. , ne pas conserver les données auxquelles vous souhaitez accéder souvent. Cela signifie que ce service affiche des prix pour l’écriture des données, mais aussi pour leur lecture. Ce service a un coût énorme, mais il peut s’avérer une bonne affaire pour certaines de vos données les plus sensibles (c’est-à-dire: si vous avez quelques fichiers texte ou images TRES sensibles, car ce type de données est généralement de petite taille, ne vous coûtera pas très cher de stocker dans un glacier).

Lacunes du stockage à froid : Cependant, il existe un gros défaut dans tout support de stockage à froid: il n’existe aucune vérification de l’intégrité, car les supports de stockage à froid NE PEUVENT PAS vérifier automatiquement l’intégrité des données (ils peuvent simplement mettre en œuvre des mécanismes de correction des erreurs pour les dommages après corruption sont survenus, mais ils ne peuvent pas être évités ni gérés automatiquement!) car, contrairement à un ordinateur, il n’existe aucune unité de traitement pour calculer / journaliser / vérifier et corriger le système de fichiers. Par contre, avec un ordinateur et plusieurs unités de stockage, vous pouvez automatiquement vérifier l’intégrité de vos archives et les transférer si nécessaire sur une autre unité en cas de corruption dans une archive de données (à condition que vous disposiez de plusieurs copies de la même archive).

Archivage à long terme

Même avec les meilleures technologies actuellement disponibles, les données numériques ne peuvent être stockées au froid que pendant quelques décennies (environ 20 ans). Ainsi, à long terme, vous ne pouvez pas compter uniquement sur le stockage froid: vous devez configurer une méthodologie pour votre processus d'archivage des données afin de garantir que vos données puissent être récupérées à l'avenir (même avec les changements technologiques) et que vous minimisez les risques. de perdre vos données. En d'autres termes, vous devez devenir le conservateur numérique de vos données, en réparant les corruptions lorsqu'elles se produisent et en recréant de nouvelles copies en cas de besoin.

Il n'y a pas de règles à toute épreuve, mais voici quelques stratégies de conservation établies , et notamment un outil magique qui facilitera votre travail:

  • Principe de redondance / réplication : la redondance est le seul outil qui puisse inverser les effets de l'entropie , principe basé sur la théorie de l'information. Pour conserver des données, vous devez dupliquer ces données. Les codes d'erreur sont exactement une application automatique du principe de redondance. Cependant, vous devez également vous assurer que vos données sont redondantes.: copies multiples des mêmes données sur différents disques, copies multiples sur différents supports (de sorte qu'en cas d'échec d'un support en raison de problèmes intrinsèques, il y a peu de chances que les autres sur des supports différents échouent également au même moment), etc. , vous devez toujours disposer d’au moins 3 copies de vos données, également appelée redondance 3 modulaire en ingénierie, afin que, si vos copies sont corrompues, vous puissiez effectuer un vote à la majorité simple pour réparer vos fichiers à partir de vos 3 copies. Rappelez-vous toujours le conseil de compas du marin:

Il est inutile d’apporter deux boussoles, car si l’un se trompe, vous ne pouvez jamais savoir lequel est correct ou si les deux sont incorrects. Prenez toujours une boussole, ou plus de trois.

  • Codes de correction d'erreur : c'est l'outil magique qui vous facilitera la vie et sécurisera vos données. Les codes de correction d'erreur (ECC) sont une construction mathématique qui générera des données pouvant être utilisées pour réparer vos données. Ceci est plus efficace, car les ECC peuvent réparer beaucoup plus de vos données en utilisant beaucoup moins d’espace de stockage que la simple réplication (c’est-à-dire faire plusieurs copies de vos fichiers), et ils peuvent même être utilisés pour vérifier si votre fichier contient des données. la corruption, et même localiser où sont ces corruptions. En fait, c'est exactement une application du principe de redondance, mais d'une manière plus intelligente que la réplication. Cette technique est largement utilisée dans toutes les communications à longue portée, telles que la 4G, le WiMax et même les communications spatiales de la NASA. Malheureusement, bien que les CEC soient omniprésents dans les télécommunications, ils ne sont pas en réparation de fichiers, peut-être parce que c'est un peu complexe. Cependant, certains logiciels sont disponibles, tels que PAR2, bien connu (mais maintenant ancien), DVD Disaster (qui offre l’ajout de codes de correction d’erreur sur les disques optiques) et pyFileFixity (que je développe en partie pour surmonter les limitations et problèmes de PAR2). Il existe également des systèmes de fichiers qui implémentent éventuellement Reed-Solomon, tels que ZFS pour Linux ou ReFS pour Windows, qui constituent techniquement une généralisation de RAID5.

  • Vérifiez régulièrement l'intégrité de vos fichiers: Hachez vos fichiers et vérifiez-les de temps en temps (une fois par an, mais cela dépend du support de stockage et des conditions environnementales). Lorsque vous constatez que vos fichiers ont souffert de corruption, il est temps de réparer à l'aide des ECC que vous avez générés si vous l'avez fait et / ou de créer une nouvelle copie de vos données sur un nouveau support de stockage. Vérifier les données, réparer les erreurs et créer de nouvelles copies est un très bon cycle de conservation qui garantit la sécurité de vos données. Le contrôle en particulier est très important car vos copies de fichiers peuvent être corrompues en silence, et si vous copiez ensuite les copies qui ont été falsifiées, vous obtiendrez des fichiers totalement corrompus. Ceci est encore plus important avec les supports de stockage froids, tels que les disques optiques, qui NE PEUVENT PAS vérifier automatiquement l’intégrité des données (ils implémentent déjà des ECC pour guérir un peu, mais ils ne peuvent pas vérifier ni créer automatiquement de nouvelles copies fraîches, c’est votre travail!). Pour surveiller les modifications de fichiers, vous pouvez utiliser le script rfigc.py depyFileFixity ou d'autres outils UNIX tels que md5deep . Vous pouvez également vérifier l'état de santé de certains supports de stockage, tels que les disques durs, à l'aide d'outils tels que Hard Drive Sentinel ou les smartmontools open source .

  • Stockez vos archives dans différents endroits (avec au moins une copie à l'extérieur de votre maison!) Pour éviter des catastrophes telles que des inondations ou des incendies. Par exemple, un disque optique au travail ou une sauvegarde dans le nuage peut être une bonne idée pour répondre à cette exigence (même si les fournisseurs de nuage peuvent être fermés à tout moment, tant que vous avez d'autres copies, vous serez en sécurité. , les fournisseurs de cloud serviront uniquement d’archives hors site en cas d’urgence).

  • Stocker dans des conteneurs spécifiques avec des paramètres environnementaux contrôlés : pour les supports optiques, stocker à l'abri de la lumière et dans un carton étanche pour éviter l'humidité. Pour les disques durs et les cartes SD, stockez-les dans des pochettes anti-magnétiques pour éviter toute électricité résiduelle susceptible d'altérer le lecteur. Vous pouvez également stocker dans un sac / boîte étanche à l’air et à l’eau et au congélateur: les températures lentes ralentiront l’entropie et vous pourrez prolonger considérablement la durée de vie de tout support de stockage de ce type (assurez-vous simplement que l’eau gagne). n'entrez pas dedans, sinon votre média mourra rapidement).

  • Utilisez du matériel de bonne qualité et vérifiez-le au préalable (par exemple, lorsque vous achetez une carte SD, testez toute la carte avec un logiciel tel que HDD Scan pour vérifier que tout va bien avant d'écrire vos données). Ceci est particulièrement important pour les lecteurs optiques, car leur qualité peut considérablement altérer la qualité de vos disques gravés, comme le montre l'étude d'Archives de France (un mauvais graveur de DVD produira des DVD beaucoup moins durables).

  • Choisissez soigneusement vos formats de fichiers: tous les formats de fichiers ne résistent pas à la corruption, certains sont même manifestement faibles. Par exemple, les images .jpg peuvent être totalement brisées et illisibles en altérant un ou deux octets. Idem pour les archives 7zip. C'est ridicule, alors faites attention au format de fichier des fichiers que vous archivez. En règle générale, le texte clair et simple est ce qu'il y a de mieux, mais si vous devez compresser, utilisez un zip non solide et pour les images, utilisez JPEG2 (pas encore open-source ...). Plus d'infos et commentaires sur les curateurs numériques professionnels ici , ici et ici .

  • Stockez à côté de vos archives de données tous les logiciels et spécifications nécessaires à la lecture des données. N'oubliez pas que les spécifications changent rapidement et que vos données risquent de ne plus être lisibles, même si vous pouvez accéder au fichier. Par conséquent, vous devriez préférer les formats et logiciels open source et stocker le code source du programme avec vos données afin de pouvoir toujours adapter le programme à partir du code source afin de le lancer à partir d'un nouveau système d'exploitation ou d'un nouvel ordinateur.

  • Beaucoup d'autres méthodes et approches sont disponibles ici , ici et dans diverses parties d'Internet.

Conclusion

Je conseille d’utiliser ce que vous pouvez avoir, mais respectez toujours le principe de redondance (faites 4 copies!), Et vérifiez toujours l’intégrité (vous devez donc générer au préalable une base de données de hachages MD5 / SHA1) et créer de nouvelles données. copies en cas de corruption. Si vous le faites, vous pouvez techniquement conserver vos données aussi longtemps que vous le souhaitez, quel que soit votre support de stockage. Le délai entre chaque vérification dépend de la fiabilité de vos supports de stockage: s'il s'agit d'une disquette, vérifiez tous les 2 mois, s'il s'agit d'une Blu-ray HTL, vérifiez tous les 2/3 ans.

Maintenant, dans les conditions optimales, je conseille, pour le stockage frigorifique, d’utiliser des disques Blu-ray HTL ou des disques DVD de qualité archivistique stockés dans des boîtes opaques étanches à l’eau et dans un lieu frais. En outre, vous pouvez utiliser des cartes SD et des fournisseurs basés sur un nuage tels que SpiderOak pour stocker les copies redondantes de vos données, ou même des disques durs, si ceux-ci sont plus accessibles.

Utilisez beaucoup de codes de correction d'erreur , ils vous feront gagner du temps. Vous pouvez également faire plusieurs copies de ces fichiers ECC (mais plusieurs copies de vos données sont plus importantes que plusieurs copies des ECC car les fichiers ECC peuvent se réparer eux-mêmes!).

Ces stratégies peuvent toutes être mises en œuvre à l'aide de l'ensemble d'outils que je développe (open source): pyFileFixity . En fait, cet outil a été lancé par cette discussion après avoir constaté qu’il n’existait aucun outil gratuit permettant de gérer complètement la fixité des fichiers. De plus, veuillez vous référer au fichier Lisez-moi et au wiki du projet pour plus d'informations sur la fixité des fichiers et la curation numérique.

Pour terminer, j'espère vraiment que davantage de recherche et développement seront consacrés à ce problème. Il s’agit d’un enjeu majeur pour notre société actuelle, qui a de plus en plus de données numérisées, mais sans aucune garantie que cette masse d’informations survivra plus de quelques années. C'est assez déprimant, et je pense vraiment que cette question devrait être mise davantage au premier plan, de sorte que cela devienne un argument marketing pour les constructeurs et les entreprises qui souhaitent créer des dispositifs de stockage pouvant durer pour les générations futures.

/ EDIT: lisez ci-dessous pour une routine de curation pratique .


6
Réponse exceptionnelle! Cela nécessite beaucoup plus de votes positifs.
bwDraco

1
Vous envisagez d'ajouter PLUS d'informations? Envisagez de le publier sous forme de manuel. :-)
fixer1234

1
@ fix1234 oui, je prévois d'ajouter plus d'informations et, plus important encore, des informations plus pertinentes et fiables. Il existe de nombreuses idées fausses et solutions faussement perçues comme sécurisées dans le domaine de la fixation des fichiers, il y a donc beaucoup à dire. Après la publication de cet article, j'ai trouvé tellement d'informations que la mise à jour est clairement nécessaire et j'ai déjà tout compilé dans mes notes avec des références. Je ne suis pas sûr que SuperUser soit le meilleur endroit pour publier toutes ces données, mais je n’ai pas de blog à moi: - / Je vais essayer d’être aussi concis que possible.
gaborous

3
Les DVD + R sont assez fiables si vous ne recevez pas de faux. Les CD-R sont affectés par la lumière infrarouge ou violette (et l’infrarouge est omniprésent, parfois même en grande partie), les DVD + R ne sont affectés que par le rouge ou des couleurs plus courtes, ce qui est déjà plus difficile. Les DVD ont également la couche sensible entre deux couches de plastique, les CD ont la couche juste en dessous de la surface inscriptible au crayon !! Les disques BD-R sont les meilleurs: vous avez besoin de lumière violette ou ultraviolette pour les détruire, et leur surface est la plus puissante. Je dirais qu'il faut utiliser BD-R pour les archives pratiques avec une probabilité de succès élevée après 30 ans. Mais vous avez besoin d'un joueur.
FarO

1
@ OlafM oui, c'est vrai, chaque nouvelle génération de disques optiques apporte des technologies plus fiables, non seulement dans leur matériau, mais également dans leur configuration technologique (par exemple, la manière dont les creux / rainures sont écrits et gérés , le code de correction d'erreur, etc. .), mais vous devez également faire attention au matériau dans lequel les couches ont été réalisées, tous les disques optiques ne sont pas égaux et, en général (mais pas toujours), les disques de qualité archivistique sont fabriqués avec des matériaux plus résilients.
Gaborous

12

Pour faire suite rapidement à ma réponse précédente , cela sera plus concis et complété par des informations supplémentaires (mais non primordiales) et des références que je ne peux pas ajouter dans la première réponse en raison des contraintes de longueur de 30 Ko.

Étant donné que l'archivage à long terme est un processus de conservation, voici quelques points sur lesquels vous voudrez peut-être accorder une attention particulière afin de rendre votre processus plus efficace et moins consommateur de temps (et de ressources):

  • Déduplication : dans la mesure où la redondance est délibérément conçue pour garantir l'archivage à long terme, vous souhaitez éviter les données redondantes inutiles (par exemple, les copies de fichiers que vous avez extraites de votre clé usb sur votre disque dur d'archivage, mais vous en avez déjà une copie depuis votre ordinateur principal!). Les données redondantes non désirées, généralement appelées doublons, sont mauvaises, à la fois en coût de stockage (elles prennent plus de ressources de stockage mais vous aurez du mal à les trouver si nécessaire), pour votre processus (et si vous avez différentes versions du même fichier? Comment pouvez-vous savoir quelle copie est la bonne?) Et pour votre temps (cela s'ajoute aux temps de transfert lorsque vous synchroniserez la sauvegarde sur toutes vos archives). C’est pourquoi les services d’archivage professionnels proposent généralement une déduplication automatisée.: les fichiers exactement similaires auront le même inode et ne prendront pas d'espace supplémentaire. C'est ce que fait SpiderOak par exemple. Il existe des outils automatisés que vous pouvez utiliser et les systèmes de fichiers ZFS (Linux) ou ReFS (Windows) peuvent le faire automatiquement pour vous.

  • Hiérarchisation / catégorisation : comme vous pouvez le constater, l'archivage à long terme est un processus fastidieux qui doit être effectué régulièrement (contrôle de cohérence, synchronisation d'archives sur plusieurs supports, création de nouvelles archives sur de nouveaux supports pour remplacer celles qui meurent, réparation de fichiers à l'aide de codes de correction d'erreur) , etc.). Pour minimiser le temps que cela vous coûte, essayez de définir différents systèmes de protection en fonction de la priorité de vos données en fonction des catégories.. L'idée est que lorsque vous déplacez les données de votre ordinateur sur l'un de vos disques durs externes que vous utilisez pour l'archivage à long terme, vous les placez directement dans un dossier définissant la priorité de sauvegarde: "sans importance", "personnel", "important", "critique". ". Ensuite, vous pouvez définir différentes stratégies de sauvegarde pour chaque dossier: réservez la protection complète (par exemple, sauvegarde sur 3 disques durs + cloud + codes de correction d'erreur + BluRays) uniquement pour les données les plus critiques que vous souhaitez conserver toute votre vie (le dossier critique) , puis une protection moyenne pour les données "importantes" (par exemple, sauvegarde sur 3 disques durs + cloud) puis "personnelle" est simplement copiée sur au moins deux disques durs externes, et "sans importance" ne reçoit aucune copie (ou peut-être sur un disque dur). conduire si la synchronisation n'est pas trop longue ...). Habituellement, vous verrez que " Ce sont toutes les choses que vous téléchargez sur Internet ou divers fichiers et médias qui vous intéressent (comme les logiciels, les jeux et les films). L'essentiel est que:plus vous souhaitez archiver à long terme plus de fichiers, plus il sera difficile (et prenant beaucoup de temps) , alors essayez de garder les fichiers qui bénéficient de ce traitement spécial au minimum.

  • Les méta-données sont un point critique: même avec de bonnes stratégies de conservation, il y a généralement une chose qui n'est pas protégée: les méta-données. Les méta-données incluent les informations sur vos fichiers, par exemple: l’arborescence de répertoires (oui, ce n’est que quelques octets; si vous perdez cela, vous obtenez vos fichiers en désordre total!), Le nom du fichier et son extension, l’horodatage Cela peut sembler peu important, mais imaginez ce qui suit: Et si demain, tous vos fichiers (y compris ceux livrés avec les logiciels et autres éléments) sont placés dans un dossier plat, sans leur nom de fichier ni extension. Serez-vous capable de récupérer les fichiers dont vous avez besoin parmi les milliards de fichiers de votre ordinateur, par inspection manuelle? Ne croyez pas que ce soit un scénario inhabituel, cela peut se produire aussi facilement que si vous subissiez une panne de courant ou un crash au milieu d'une copie: la partition en cours d'écriture peut être totalement détruite (type infâme RAW). Pour résoudre ce problème, vous devez être prêt et préparer vos données pour la récupération des données: pour vous assurer de conserver les métadonnées, vous pouvez agglomérer les fichiers avec leurs métadonnées à l'aide dearchives non solides telles que ZIP DEFLATE ou DAR (mais pas tar). Certains systèmes de fichiers offrent une redondance automatisée des métadonnées, tels que DVDisaster (pour les disques optiques) et ZFS / ReFS (pour les disques durs). Ensuite, en cas de blocage des métadonnées, vous pouvez essayer de récupérer vos partitions à l’aide de TestDisk ou de GetDataBack (autoriser la récupération partielle de l’arborescence de répertoires) ou ISOBuster (pour les disques optiques), afin de récupérer l’arborescence de répertoires et d’autres métadonnées. Au cas où tout cela échouerait, vous pouvez utiliser PhotoRec pour scinder des fichiers: cela extraira tous les fichiers qu’il reconnaît, mais en désordre total et sans nom de fichier ni horodatage, seules les données elles-mêmes seront récupérées. Si vous avez compressé des fichiers importants, vous pourrez récupérer les métadonnées à l'intérieur du zip (même si le zip lui-même ne contient plus de méta-données, au moins, les fichiers possèdent toujours les méta-données correctes). cependant, vous devrez vérifier manuellement tous les fichiers encapsulés, ce qui prend beaucoup de temps. Pour vous protéger contre cette éventualité, vous pouvez générer au préalable un fichier de somme de contrôle d’intégrité à l’aide de pyFileFixity ou de PAR2, puis utiliser ce fichier de contrôle d’intégrité après la création de fichiers pour reconnaître et renommer automatiquement les fichiers en fonction de leur contenu (c’est le seul moyen d’automatiser la métr récupération de données, car la fermeture de fichiers ne peut techniquement que récupérer le contenu, pas les méta-données).

  • Testez vous-même vos formats de fichier et vos stratégies de conservation : au lieu de vous fier aux mots des articles décrivant quel type de format est meilleur que l’autre, vous pouvez essayer vous-même avec pyFileFixity filetamper.py ou tout simplement en remplaçant quelques caractères hexadécimaux fichiers: vous verrez que la plupart des formats de fichiers peuvent être décomposés avec seulement 3 octets différents. Vous devez donc choisir avec soin vos formats de fichiers: préférez les fichiers texte simples pour les notes et utilisez des formats de fichiers résilients pour les médias (ils sont toujours en cours de traitement, tels que le code de correction des erreurs MPEG-4, ffmpeg l'implémente, des références seront ajoutées ), ou générer vos propres codes de correction d'erreur.

  • Lisez des études statistiques, ne croyez pas les affirmations : comme je l’ai dit dans la réponse précédente, des affirmations extravagantes sont constamment formulées au sujet de la longévité des supports de stockage sans aucun fait scientifique, et vous devriez être particulièrement vigilant à ce sujet. En effet, rien dans la loi n'empêche le fabricant de se vanter de prétentions fausses et invérifiables sur la longévité. Préférez vous référer à des études statistiques, telles que le rapport annuel de BackBlaze sur les taux de défaillance des disques durs .

  • Prenez un support de stockage garanti à long terme . Une garantie ne peut pas rapporter vos données, mais elle explique comment le producteur évalue le taux d'échec de son produit (sinon, cela coûterait trop cher si le taux est trop élevé pendant la période de garantie).


Une mise à jour sur le schéma que j'utilise: j'applique la stratégie de hiérarchisation décrite ci-dessus et j'ai ajouté le service de sauvegarde sur le cloud SpiderOak à mon schéma, car il comporte un plan avec un stockage infini et qu'il est totalement crypté, je conserve donc l'entière propriété de mes données. Je n'utilise PAS comme seul support de sauvegarde de mes données, c'est seulement une couche supplémentaire.

Alors, voici mon schéma actuel:

  • 3 copies de disques durs régulièrement vérifiées, synchronisées et stockées à deux endroits différents et 1 toujours sur moi (je l'utilise pour stocker des déchets et effectuer des sauvegardes rapides).
  • SpiderOak avec plan de stockage infini
  • Disques BluRay pour des données vraiment sensibles mais pas trop volumineuses (je limite à 50 Go les données que je peux stocker sur ces disques)
  • pyFileFixity et DVDisaster pour les dossiers que je veux vraiment garder à long terme.

Ma routine quotidienne est la suivante: j’ai toujours un disque dur USB portable 2.5 que je peux utiliser pour stocker des éléments non importants (déplacer des fichiers de mon ordinateur vers le disque dur) ou pour sauvegarder des éléments importants (copier des fichiers sur le disque dur, mais en conserver une copie sur mon ordinateur). ordinateur). Pour les choses vraiment critiques, j'active également la sauvegarde en ligne sur SpiderOak (j'ai un dossier contenant des choses critiques sur mon ordinateur, je dois donc y déplacer des fichiers critiques et la synchronisation est automatiquement effectuée par SpiderOak). Pour les fichiers vraiment critiques, je calcule également un fichier de correction d'erreur à l'aide de pyFileFixity.

Donc, pour résumer, pour les choses critiques, je les stocke sur: le disque dur portable, le cloud SpiderOak et mon ordinateur. Je dispose donc de 3 copies à tout moment avec juste deux actions rapides (copier sur le disque dur portable et aller dans le dossier SpiderOak). Si une copie est corrompue, je peux voter à la majorité pour les réparer à l'aide de pyFileFixity. Il s’agit d’un système très économique (à la fois en prix et en temps) mais très efficace et qui applique tous les principes fondamentaux de la curation numérique (redondance triple, copies différentes dans différents emplacements, différents supports, contrôle d’intégrité et ecc de SpiderOak).

Ensuite, tous les 3 à 6 mois, je synchronise mon disque dur portable sur mon deuxième disque dur à la maison, puis tous les 6 à 12 mois, je synchronise mon disque dur portable sur mon troisième disque dur qui se trouve dans une autre maison. Cela offre l’avantage supplémentaire de la rotation (si, au bout de 6 mois, je réalise que quelque chose ne va pas dans ma dernière sauvegarde et que je supprime des fichiers critiques, je peux les obtenir à partir de l’un des deux disques durs du logement).

Enfin, j'ai écrit des fichiers très critiques sur des disques BluRay avec DVDisaster (et des fichiers ecc supplémentaires avec pyFileFixity mais je ne suis pas sûr que cela soit nécessaire). Je les range dans une boîte hermétique dans un placard. Je ne les vérifie que tous les deux ou trois ans.

Donc, vous voyez, mon schéma n’est pas un gros fardeau: au quotidien, il faut quelques minutes pour copier des fichiers sur un disque dur portable et dans mon dossier SpiderOak, puis je ne synchronise que tous les 6 mois sur un disque dur domestique. . Cela peut prendre jusqu’à une journée en fonction du volume de données à synchroniser, mais il est automatisé par les logiciels, vous devez donc laisser un ordinateur exécuter le logiciel et faire autre chose (j’utilise un netbook à 100 $ que j’ai acheté faire cela, afin que je puisse travailler sur mon ordinateur principal en même temps sans me soucier de faire planter mon ordinateur au milieu d’une copie qui pourrait être terrible et détruire votre disque dur en cours d’écriture ). Les codes de correction d'erreur et les schémas BluRay ne sont que rarement utilisés pour des données vraiment critiques; cela prend donc un peu plus de temps, mais c'est rare.

Ce schéma peut être amélioré (comme toujours), par exemple en utilisant ZFS / ReFS sur les disques durs : ceci implémenterait une protection automatisée du code de correction d'erreur Reed-Solomon ainsi qu'un contrôle de l'intégrité (et des dittoblocs !) Sans aucune interaction manuelle de ma part ( contrairement à pyFileFixity). Bien que ZFS ne puisse pas fonctionner sous les systèmes d’exploitation Windows (pour le moment) , il existe ReFS qui permet un contrôle similaire de la correction des erreurs au niveau du système de fichiers. En outre, il pourrait être intéressant d’utiliser ces systèmes de fichiers sur des disques durs externes! Un disque dur portable exécutant ZFS / ReFS avec correction automatique des erreurs RS et déduplication devrait être génial! (et ZFS semble être assez rapide donc la copie devrait être rapide!).

Une dernière remarque: faites attention aux déclarations sur les capacités ECC des systèmes de fichiers tels que ceux de cette liste , car pour la plupart, ils sont limités aux métadonnées (telles que APFS ) ou à la mise en miroir RAID 1 ( btrfs ). A ma connaissance, seuls ZFS et ReFS fournissent de vrais codes de correction d'erreur (et non une simple mise en miroir) des métadonnées et des données, ZFS étant actuellement le plus avancé (bien que quelque peu expérimental à partir de 2018), en particulier parce que les disques ReFS ne peuvent pas être démarrés. .


11

Il n'y a pas de solution facile. La maintenance des archives est un processus , pas un travail ponctuel. Les trois types de supports d'archives actuellement disponibles ont leurs propres avantages et inconvénients, mais ces arguments s'appliquent à tous les types de supports:

  1. Personne n'a stocké de DVD ou de disque dur pendant 30 ou 100 ans, pour des raisons évidentes. Il n’existe donc aucun bilan et personne ne sait comment les médias vont vieillir. Les tests de vieillissement artificiel ne prouvent pas grand-chose et vous vous fiez aux tests du fournisseur (non impartiaux).

  2. Vous devez stocker le support dans l'environnement contrôlé pour obtenir les meilleurs résultats (température / humidité constante, faible luminosité, etc.). Sinon, la vie des médias est considérablement raccourcie.

  3. Vous devez gérer le matériel et les logiciels qui lisent le support (par exemple, les interfaces SATA risquent de ne plus être disponibles dans 30 ans).

Donc, à mon avis, la seule solution viable pour les particuliers ou les petites entreprises est la suivante:

  1. Conservez plusieurs copies de toutes les données sur divers types de supports (disques durs et DVD)
  2. Conservez plusieurs copies de toutes les données dans plusieurs endroits (chez vous et dans le coffre-fort de votre banque).
  3. Copiez toutes les données sur un nouveau support de temps en temps (par exemple, copie sur un nouveau disque dur et de nouveaux disques DVD tous les 2 ans. Au fur et à mesure que la densité de données augmente, vous aurez également probablement besoin de moins de disques.
  4. Conservez si possible des copies papier de toutes les données critiques (par exemple, imprimez ces grands livres généraux annuels pour votre entreprise, imprimez les photos de famille les plus précieuses, etc.)

1
Je me demande s’il existe un RAID pour les DVD .... c’est-à-dire que si vous stockez des DVD pendant deux ans, vous pouvez être pratiquement certain que 80% d’entre eux seront exempts d’erreur, vous pourriez donc disposer de deux disques de parité. Hmmmm. usenet utilise des fichiers de parité, je pense. Cela vaut peut-être la peine d’utiliser quelque chose comme cela pour les archives DVD / CD / BD.
user606723

1
@ user606723: C'est une très bonne idée! Je suggère d'utiliser quelque chose comme une archive RAR multi-volumes (si les fichiers d'origine sont vraiment volumineux) avec des fichiers de parité PAR2 ...
haimg

4
La compatibilité d'interface serait une préoccupation majeure; Cela fait environ 30 ans que l’IBM XT a été introduit, mais combien d’ordinateurs peuvent aujourd'hui s’interfacer de quelque façon que ce soit avec un disque dur pré-ATA? Combien d’ordinateurs construits aujourd’hui peuvent même s’interfacer avec un disque dur PATA sans matériel supplémentaire (carte contrôleur ou adaptateur USB)?
un CVn

1
@ user606723 Ce que vous appelez "RAID pour DVD" existe réellement et est déjà implémenté sous la forme de "codes de correction d'erreur", en particulier à l'aide de CIRC (Cross-Interleaved Reed – Solomon Coding). C'est pourquoi de petites rayures ou de la poussière ne vous empêcheront pas de lire les données, car elles sont déjà corrigées automatiquement. Toutefois, vous ne pouvez pas spécifier le niveau de redondance souhaité. Par conséquent, si vous souhaitez un DVD plus résistant, vous devez utiliser un logiciel tiers, tel que DVDisaster , PAR2 ou pyFileFixity .
gaborous

5

J'irais sur microfilm. Je ne sais pas si c'est toujours fabriqué, mais je serais surpris si ce n'était pas le cas. Les négatifs à base d'argent durent des centaines d'années s'ils sont stockés correctement. Bien sûr, il s’agit d’un investissement énorme, qui prendra toute une place pour la photographie et la visualisation, sans compter le stockage. Donc, ce n'est que si vous vous entendez vraiment plus de 100 ans sans entretien.

Si ce n'est pas le cas - et il est probable que vous ne l'êtes pas à moins de vouloir créer une capsule temporelle -, utilisez simplement des sauvegardes sur disque dur et copiez le tout dans un nouveau support tous les 10 à 15 ans. En réalité, il n’existe pas de meilleure assurance contre le vieillissement du support que de la copier tous les 10 ans environ. Mieux que les microfilms, mieux que les tablettes d'argile, mieux que les obélisques de pierre enterrés dans le sable du désert.


4

Jusqu'à 5 To (ou plus?), Vous pouvez stocker en toute sécurité jusqu'à 30 ans sur un lecteur de bande magnétique. Ce temps est prouvé. Les disques enregistrables Blue Ray doivent également stocker vos documents en toute sécurité jusqu'à 30 ans, mais leur capacité est d'environ 100 Go.

Si vous avez plus d’argent, vous le stockerez sur un film noir / blanc 35mm. Il est supposé que les données peuvent être restaurées (en fonction de la densité) pour les 700 prochaines années. ( Lien allemand vers wikipedia )


Pour mémoire, écrire sur 20 à 50 disques Blu-ray n’est pas exclu.
user606723

Je n'ai jamais entendu parler d'archivage de données sur 35 mm, bien que le principe soit évident, je suppose. Quelle est la densité comme?
Shinrai

@Shinrai: Je ne sais pas la densité du film, pardon
tuergeist le

Vous pouvez probablement calculer une densité comprise entre 1 et 10 mégabits par image.
Daniel R Hicks

3
Le LS-9000 ED de Nikon numérise un film à 4000 ppp, vous offrant ainsi 21,4 Mp / image à 35 mm (24 x 36 mm). Si vous pouvez utiliser 1 / 10ème de celui-ci pour le stockage de données réel (en tenant compte des imperfections du film, des limitations de focalisation et de résolution dans l'optique aux deux extrémités, etc.), soit 2 Mb / image ou environ 10 MB pour un rouleau de film de 36 poses et pur noir / blanc. Si le facteur limitant du scanner est 4 000 ppp, il s'agit de 100 Mo pour un rouleau de 36 exp. Bien entendu, vous auriez encore besoin de conserver des informations sur la manière de lire les données, car à l’œil nu, les cadres seraient probablement assez uniformément gris.
un CVn

2

Je recommande un disque de nickel de trois pouces de diamètre avec des informations gravées au microscope sur sa surface.

http://rosettaproject.org/blog/02008/aug/20/very-long-term-backup/


3
Est-ce que cela doit être exactement trois pouces? J'ai un disque de nickel de 75 mm de diamètre à portée de main ...
un CVn

Le seul problème avec cette approche est qu’elle ne peut stocker que des images fixes (numérisations). Mais c’est actuellement la meilleure approche pour le stockage à très long terme (jusqu’à 2000 ans, millénias oui!). Certains commentaires sur le blog ont également mis en évidence le fait qu'il ne peut stocker qu'environ 50 Mo de données.
gaborous

1

Pour ce type de durée, tout ce qui est déjà sur papier (ou peut être facilement imprimé sans perdre d'informations) serait préférable de le stocker sous cette forme. Soyez juste conscient du papier et du toner que vous utilisez pour la copie papier.

Pour ce qui est des autres, je ne connais pas de support numérique actuellement utilisé qui durerait aussi longtemps. Si vous passez du temps (et donc de l'argent) à rafraîchir votre collection, une bande magnétique pourrait être une option viable - mais même dans ce cas, vous auriez besoin d'une certaine redondance, car vous pourriez simplement découvrir qu'une seule bande a mal fonctionné (ou Il se peut que le lecteur de bande parvienne à la modifier en le lisant).

Et même si vous pouviez faire en sorte que les médias actuels résistent à l'épreuve du temps, vous seriez toujours obligés de savoir si un programme pourrait lire les médias dans 30 ans, et encore moins dans 100 ans.


1
La bande magnétique est sujette à un certain nombre de modes de défaillance, allant de l’impression à la démagnétisation dans le temps, en passant par l’oxyde qui tombe de la bande.
Daniel R Hicks

1

Il est vrai que les CD-R et DVD-R standard ne sont pas suffisamment fiables pour archiver des données importantes. Mais vous pouvez obtenir des DVD qui ne se détériorent pas si rapidement:

https://www.google.com/search?q=archival+dvd-r


Nous vous remercions d’avoir signalé cette option, une bonne alternative aux disques M-Discs, accessible à tous ceux qui possèdent un graveur de DVD.
gaborous

"Le DVD-R Verbatim Gold Archival [...] a été classé comme le DVD-R le plus fiable lors d'un test de résistance approfondi à long terme par le magazine allemand bien connu c't (c't 16/2008, pages 116- 123) [...] atteignant une durabilité minimale de 18 ans et moyenne de 32 à 127 ans (à 25 ° C, 50% d’humidité). Aucun autre disque n’a été aussi proche de ces valeurs, le deuxième meilleur DVD-R avait un durabilité minimale de seulement 5 ans. ", linuxtech.net/tips+tricks/best_safe_long-term_data_storage.html
gaborous

1

J'ai lu que 'M-Disc' avait créé un DVD nécessitant un graveur spécial, mais lisible par tous les lecteurs de DVD génériques. Ils revendiquent une durée de vie estimative de 1000 ans, déclarant qu'il ne peut pas être testé avec précision. Une longue exposition au soleil, aux rayures, à une utilisation multiple, etc., et le disque est utilisable à 100%. Je serais intéressé par tous les commentaires de quiconque a rencontré ce système.

Voici un extrait de Dell qui a peut-être installé le lecteur M-Disc dans leurs nouveaux ordinateurs portables / PC

M-DISC Ready enregistre les données de gravure au laser dans un matériau semblable à de la roche inorganique afin d'éviter toute perte de données, garantissant ainsi la sécurité de vos fichiers et leur stockage pouvant durer jusqu'à 1 000 ans, affirme la société.

Contrairement à tous les autres DVD enregistrables qui utilisent des colorants organiques pour conserver des données, les disques M ne se décolorent pas et ne se dégradent pas avec le temps.


Au lieu de republier avec plus d’informations, vous devriez avoir modifié votre message original.
Kazark

Pouvez-vous citer la citation avec un lien ou quelque chose? En outre, vous pouvez utiliser >pour le formater comme une citation en bloc.
Kazark

1

Vous devez combiner différentes technologies, emplacements et supports afin de réaliser des sauvegardes de longue durée:

  • Graver sur DVD - Bluray à basse vitesse. Conservez-les dans des endroits peu éclairés, à basse température, peu humides, sans rayures.
  • Conservez une copie dans une unité RAID 1, Raid5, Raid6 ou Raid10.
  • Conservez une autre copie sur un disque dur externe
  • Conservez une copie dans le cloud (carbonite, crashplan)
  • Conservez une copie sur la technologie M-Disc (graveurs et graveurs Mdisc) ne sont pas disponibles sur Amazon.com à des prix très avantageux. Le fabricant déclare qu'il peut conserver les données pendant 1000 ans.

Je vois que trois de vos cinq points sont vraiment des variations d’un seul thème: le stockage sur disque dur magnétique. En ce qui concerne votre dernier point, la question ne concerne pas tant la durée de conservation des données par le support (et au moins les fabricants de disques durs citent généralement des chiffres bien meilleurs que la réalité), mais la durée pendant laquelle un équipement de lecture des données sera disponible. ou la connaissance de la façon de les faire sera disponible. Toutes vos techniques suggérées sont de haute technologie. Supposons que les Vikings stockent des données sur des disques Blu-ray; Quelles sont les chances que nous sachions comment interpréter ces données maintenant?
un CVn

@ MichaelKjörling Stockez un ordinateur supplémentaire avec tous les périphériques nécessaires. Utilisez la mémoire ROM si nécessaire.
QuyNguyen2013

1

Comme quelqu'un l'a déjà mentionné, il existe une nouvelle technologie appelée M-Disc. Ils sont très fiables: http://www.zdnet.com/torture-testing-the-1000-year-dvd-7000023203/ Nous avons commencé à les utiliser pour sécuriser des images de disques de machines de production. Il y a déjà des Blu-Ray sur le marché. Le seul inconvénient est qu'ils sont plus lents que les RD classiques.


J'ai un besoin similaire d'opération et après avoir lu à ce sujet, je pense que je vais essayer cette solution, merci d'avoir signalé cette technologie! Il suffit d'acheter un graveur de DVD ou de Blu-ray compatible avec M-Disc, et LG en a déjà beaucoup produit. Il est donc tout à fait accessible et à faible coût!
gaborous

1
En fait, il semble que les disques M-Disc ne soient pas aussi fiables qu'ils le prétendent. Une étude française indépendante menée par les Archives de France (le service français d'archivage de données officiel) cherchait le meilleur support d'archivage de données. Les disques M-Disc ne résistent pas vraiment à l'humidité et à la température (vieillissement accéléré). Je posterai ici une réponse avec plus de détails.
gaborous

0

Si vous souhaitez avoir une méthode pour résoudre ce problème, vous devez étudier le champ Préservation numérique.

http://en.wikipedia.org/wiki/Digital_preservation

La préservation numérique est la méthode qui permet de conserver le matériel numérique en vie de manière à ce qu'il reste utilisable, car les avancées technologiques rendent obsolètes les spécifications d'origine du matériel et des logiciels (wikipedia).

Il existe également un modèle de référence: OAIS http://en.wikipedia.org/wiki/Open_Archival_Information_System

Il existe quelques solutions open source et commerciales pour le réaliser. Les bibliothèques et les archives utilisent ces technologies pour conserver les livres numérisés pendant de longues périodes.


Conserver des données pendant une longue période n’équivaut pas à un média survivant lui-même aussi longtemps, comme cela a déjà été souligné dans plusieurs réponses très votées. La migration des données est une composante majeure de la conservation numérique, car les médias vieillissent et deviennent obsolètes.
un CVn

Merci Michael. Ne pointer que sur OAIS comme méthode permettant d’atteindre le véritable objectif.
AGA

C'est une bonne réponse pour les stratégies de curation numérique, mais pas pour quel support de stockage devrait être utilisé. Le modèle OAIS est très bon et effectivement utilisé par la plupart des bibliothèques et archives nationales du monde, mais je le trouve un peu trop compliqué, théorique et contenant des métadonnées inutiles pour un usage individuel. Le modèle BagIt est un peu plus pratique et plus utilisable, mais reste assez compliqué, où de simples outils comme PAR2 ou pyFileFixity pourraient suffire.
gaborous

0

Votre réponse est simple:

https://wiki.openstack.org/wiki/Cinder

Openstack est un système de stockage presque «immortel», car vous pouvez mettre à niveau ou remplacer des nœuds de défaillance par de nouveaux, même avec des technologies futures inconnues de nous maintenant. Vos données ont au moins deux ou trois emplacements simultanément dans ce système. Par conséquent, des notes de stockage complètes peuvent échouer et vos données sont toujours présentes. Échelles jusqu'à 50 PB (vérifié) - 110 PB. Fondamentalement, il ajoute une couche logicielle sur votre matériel, ce qui rend votre stockage infini en vie. Il surmonte notre barrière sonore actuelle des ensembles de raids avec ses limites de temps de reconstruction de très grands ensembles de raids. Les coûts représentent environ 50% des systèmes de stockage RAID classiques. Je connais un système de FUJITSU présentant cette architecture de référence: CD10000


1
Il ne vous reste plus qu'à faire confiance à cette entreprise :-)
einpoklum - rétablir Monica

-1

Stockage de données à long terme pratique utilisant la technologie actuelle de l'année 2014:

... et c'est ce que je fais.

Obtenez deux des lecteurs de plusieurs téraoctets, par exemple deux lecteurs de 3 téraoctets chacun. Appelez l’un des TB-1 et l’autre TB-2. Sauvegardez tout sur TB-1. Après une année de sauvegarde sur TB-1, reformatez TB-2 et copiez TB-1 à TB-2. Puis pour l’année suivante, sauvegardez tout dans TB-2. Après cette année, reformatez TB-1 et copiez TB-2 en TB-1 pour recommencer le cycle biannuel.

Le reformatage rétablit la force magnétique des marqueurs de secteur. Et la copie restaure la force magnétique des données.

Le même principe peut être appliqué à la sauvegarde sur bande et au CD, ou à la plupart des autres sauvegardes. Mais les CD sont si peu pratiques car ils peuvent se détériorer en moins d’un an et vous avez besoin de beaucoup d’entre eux pour tout sauvegarder. Donc, graver des copies de tous les CD de sauvegarde tous les 5 mois représente tout simplement trop de travail. Jusqu'à présent, je peux stocker toute ma vie sur un lecteur de plusieurs téraoctets.


2
Les CD vont mal en moins d'un an? Voulez-vous dire que vous ne possédez aucun CD de plus d'un an? Je peux vous assurer que j'ai des CD de données et audio de plus d'un an et qu'ils fonctionnent bien!
Dave

1
J'ai des CD de 1998 qui fonctionnent toujours bien. Peu importe que nous sachions que ce n'est pas vrai, qu'est-ce qui vous fait croire que c'est le cas? Pouvez-vous source vos informations? Merci.
Matthew Williams

Il n'est pas nécessaire de réécrire les données sur le disque dur, il vous suffit de fournir une alimentation électrique pour maintenir (ou restaurer) le champ électromagnétique. La réécriture des données pour un stockage à long terme n'est nécessaire que pour les cartes SD / Compact et les SDD.
gaborous
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.