Comment sauvegarder plus de 20 To de données?


86

La société pour laquelle je travaille est dotée d’un serveur NAS qui est utilisé pour stocker des sessions de photographie. Chaque session coûte environ 100 Go. Au cours des deux dernières années, ce serveur a accumulé plus de 10 To de données et nous augmentons la quantité de prises de vue de manière exponentielle. J’estime qu’à la fin de l’année prochaine, nous aurons plus de 20 To stockés sur ce NAS. Nous sauvegardons actuellement ce serveur sur bande à l'aide de bandes LTO-5 avec Symantec BackupExec. La taille de ce serveur ayant augmenté, les sauvegardes complètes de ce serveur ne sont pas terminées du jour au lendemain. Quelqu'un a-t-il des suggestions sur la manière de sauvegarder cette quantité de données? Devrions-nous sauvegarder sur bande? Y a-t-il d'autres options qui pourraient être meilleures?


36
Pourquoi effectuez-vous des sauvegardes complètes toutes les nuits? Pourquoi ne pas exécuter une sauvegarde complète une fois par semaine et exécuter des sauvegardes incrémentielles les 6 jours restants par semaine?
joeqwerty

9
C’est ce que nous faisons, désolée de ne pas avoir mentionné que… le plein hebdomadaire est celui qui n’est pas complet.
Jésus Fidalgo

6
Une semaine complète doit-elle être complétée du jour au lendemain? Il n'est pas rare que les hebdomadaires prennent plus de 24 heures pour un jeu de données suffisamment volumineux.
Stefan Lasiewski

2
Quel type de NAS utilisez-vous?
ewwhite

6
Etes-vous sûr que l'augmentation des photoshoots est exponentielle ?
gerrit

Réponses:


114

Vous devez prendre du recul et cesser de penser "J'ai 20 To sur mon NAS, j'ai besoin de sauvegarder!" et développez une stratégie de stockage tenant compte de la nature de vos données:

  • D'où vient-il et combien de nouvelles données obtenez-vous? (vous avez ceci dans votre question)
  • Comment les données sont-elles utilisées une fois que vous les avez? Est-ce que les gens montent les images? Conservez-vous les originaux et générez-vous des versions modifiées?
  • Combien de temps avez-vous besoin de conserver toutes les données? Les gens apportent-ils encore des modifications aux photos d'il y a 2 ans?

En fonction des réponses aux deux dernières questions, vous avez probablement besoin de plus d'un système d'archivage qu'un système de sauvegarde radicalement différent.

Les données statiques (par exemple, les photos de 2 ans que vous conservez "au cas où") n'ont pas besoin d'être sauvegardées toutes les nuits, ni même toutes les semaines, elles doivent être archivées. Ce que vous faites réellement est peut-être plus complexe, mais sur le plan conceptuel, toutes les anciennes images peuvent être écrites sur bande (copies multiples!) Et ne plus être sauvegardées.

Sur la base de vos commentaires, quelques réflexions supplémentaires:

  • Dans la mesure où vous conservez les originaux de chaque prise de vue intacts et travaillez sur une copie, et en supposant qu'au moins certaines des images d'origine soient des ratés, vous pourrez peut-être réduire de moitié la quantité de données à sauvegarder.

  • Si vous ne pouvez toujours pas terminer une sauvegarde complète dans votre fenêtre de temps, un moyen courant d’accélérer les choses est d’effectuer d’abord une sauvegarde disque à disque, puis de copier ensuite la sauvegarde définie sur bande.


1
La prise de vue originale est conservée intacte, puis une autre copie de la prise de vue est utilisée pour l'édition. Les données doivent être conservées environ 2 ans.
Jésus Fidalgo

20
+1 Bien dit. Je suis surpris de constater à quel point la différence entre sauvegarde et archivage est généralement mal comprise. Je fais des sauvegardes complètes et incrémentielles de mon système et de données éphémères telles que des courriels et des documents, mais j'archive mes photographies (1,2 To et en croissance :-). J'aimerais pouvoir donner un autre +1 pour la suggestion de disque à disque.
Ex Umbris

8
+1 Je parierais que 80% des données du NAS ne sont jamais utilisées plus d'une fois.
Stefan Lasiewski

+1 La meilleure option consiste ici à effectuer des transferts delta par disque quotidiens et même toutes les heures pour capturer les modifications, puis à envoyer les sauvegardes complètes ou incrémentielles à un archiveur ou à un fournisseur / site hors site toutes les semaines ou toutes les semaines. Nous avions l'habitude d'effectuer des sauvegardes delta de nos fichiers SQL toutes les 15 minutes afin de réduire le nombre de pertes de données dans un scénario de récupération d'urgence.
Brent Pabst

12

Vous avez deux options:

Option 1:

  1. Acheter un autre NAS
  2. Donnez à vos utilisateurs un accès à new_NAS
  3. Déplacer tous les fichiers de plus de 2 ans vers new_NAS
  4. Continuez à sauvegarder old_NAS comme d'habitude
  5. Tous les 6 mois, déplacez les fichiers de plus de 2 ans vers new_NAS

Option 2:

  1. Acheter un autre NAS
  2. Exécuter rsynctoutes les heures: old_NAS -> new_NAS

    ou, mieux, utilisez quelque chose comme rdiff-backup qui fait que rsync + conserve les deltas avec les modifications de fichier (vous pouvez restaurer les anciennes versions des fichiers)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. Tous les 6 mois, nettoyez les anciens fichiers exécutant quelque chose comme:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    

2

Pourquoi vos sauvegardes doivent-elles être effectuées du jour au lendemain? Performance du serveur de fichiers? Vous pourrez peut-être limiter la bande passante de votre logiciel de sauvegarde afin de limiter l'impact pendant la journée. Ou dédiez une interface sur votre NAS pour communiquer avec le lecteur de bande afin de limiter l'impact sur le trafic.

Pouvez-vous exécuter des vidages complets le week-end et ne faire que des incréments au cours de la semaine? Si le problème est de changer de bande le week-end alors qu'il n'y a personne, une librairie de bandes / librairie bon marché coûte beaucoup moins cher que de payer quelqu'un pour changer de bande.

Pouvez-vous segmenter vos données en plusieurs groupes suffisamment petits pour être complétés dans votre fenêtre de sauvegarde?

Nous avons environ 50 To de données sur notre NAS et il faut plus d'une semaine pour obtenir un vidage complet de tout en utilisant deux lecteurs de bande (un volume prend presque une semaine lui-même car il contient de nombreux fichiers minuscules). Ce que nous faisons est de répliquer nos données sur un deuxième NAS. Notre NAS secondaire étant sur site (mais dans un centre de données différent du centre principal), nous spoulons toujours les données sur bande pour une sauvegarde hors site. Nous effectuons des sauvegardes à partir de ce NAS secondaire afin que les sauvegardes ne ralentissent personne.

Si vous pouvez colocaliser votre NAS secondaire suffisamment loin, il peut s'agir de votre sauvegarde, aucune bande nécessaire.


1

Je doute juste de la taille de chaque session de tir. Est-ce vraiment 100 Go / session? Combien de sessions votre entreprise fait-elle chaque mois?

Étant donné que vous stockez principalement d'anciennes sessions qui ne sont pas utilisées fréquemment, etc., et que vous n'avez probablement pas besoin de récupérer ces informations aussi souvent, je vous suggère d'utiliser les services d'une entreprise pour prendre en charge cette tâche pour vous. .

Par exemple, stocker ces 20 To à l'aide d'un service en ligne comme Amazon Glacier coûterait un peu plus de 200 $ / mois. Si vous avez besoin de récupérer ces archives fréquemment, voire de les récupérer intégralement, vous rencontrerez des contraintes de temps et de coûts. Si vous ne stockez que ces éléments "pour être sûr qu'ils le sont", peut-être qu'une troisième partie pourrait vous rendre la vie plus facile (et même moins chère que d'acheter un autre NAS, des cassettes, etc.)


1
100 Go par session me semble un peu élevé, mais pas déraisonnable. Nous avions souvent une session de plus de 32 Go où je travaillais, et notre équipement était de niveau moyen.
Tom Marthenal

1

full backups of this server are not completing overnight
Puis essayez les sauvegardes incrémentielles? Une sauvegarde complète tous les xx jours, le reste étant incrémenté.

Les disques durs sont peu coûteux, plus rapides que les bandes et peuvent être utilisés pour la sauvegarde.

Il existe également de bonnes alternatives pour les sauvegardes sur le cloud, il n'est donc pas nécessaire de continuer à ajouter des bandes plus nombreuses et plus rapides.
Par exemple:


Regardez les commentaires - ce sont les pleins hebdomadaires qui ne sont pas terminés. De plus, les sauvegardes en nuage pour 20 To de données ... ne sont pas une bonne idée. L’option «économique» d’Amazon Glacier coûtera environ 2500 euros / an, et la récupération de toutes ces données coûtera environ 36 000 $.
HopelessN00b

Ce n'est pas vraiment beaucoup.
Sirex

1
J'imagine que c'est une question d'opinion si 2400 $ / an est beaucoup pour 20 To de stockage relativement sûr et entièrement sans entretien. Pas de consommation électrique, pas de refroidissement, pas de matériel défaillant, pas de SLA, ne prend pas d'espace rack. Et comme avec la plupart des systèmes, vous devez vous attendre à environ 0 opérations de récupération complète. Et si vous avez besoin d'une récupération, le prix est plus proche de 1 800 $ que de 36 000 $ (vous ne savez pas d'où vous vient ce numéro).
Tedd Hansen

Pour les glaciers, les $ 36K sont assez proches. Je le calcule approximativement à 42 000 USD pour les coûts de récupération sur 20 To. Ce n'est pas encore beaucoup cependant. La bande passante est plus un problème.
Sirex

1

Je pense que la meilleure solution à cet égard est ce que nous faisons avec nos données de paie, dont la mise en œuvre devrait nécessiter un effort minimal.

  • Au départ, elles sont conservées avec le reste des données du serveur sauvegardées quotidiennement. Notre période de rétention sur ces sauvegardes est de 13 mois.

  • Lorsque nous ne pensons plus qu'il faudra modifier les données (deux périodes de paie plus tard, IIRC), celles-ci sont (via un script) sauvegardées dans un volume d'archive exclu des sauvegardes habituelles.

  • Le volume d'archive est sauvegardé sur bande chaque année et les bandes sont envoyées à Cintas pour un stockage indéfini.

Cela nous permet d’avoir un accès en ligne facile à ces données immuables (nous n’avons donc pas besoin d’appeler une bande chaque fois que le comptable veut examiner quelque chose), tout en conservant des archives indéfinies hors site de données que nous pourrions devoir conserver indéfiniment , et sans écraser notre système de secours. Le même type d’installation pourrait vous convenir, même si vous souhaitez peut-être ajuster la quantité de données que vous conservez en ligne, en fonction de vos besoins pour pouvoir accéder à ces données en temps voulu: 20 To de stockage de niveau entreprise coûte beaucoup plus cher. que de l'archiver sur deux ou trois ensembles de bandes LTO5 que vous stockez dans des coffres hors site.


0

Peut-être que vous pouvez construire votre propre pod Backblaze : 135 To pour 7384 $
Cliquez ici pour plus d'informations: Infos bâtiment Backblaze Pod

Vous pouvez acheter les pièces nécessaires et les construire vous-même.

Peut-être pouvez-vous en construire 3, et en garder 2 sur place et 1 hors site. Vous pouvez ensuite utiliser un pod comme "données en ligne", le second pod sur site comme sauvegarde du premier pod et le troisième pod hors site comme sauvegarde d'urgence hors site.

Avec 135 To de stockage pour chaque pod, vous pouvez même penser à conserver un historique du changement ...
135 To / 20 To = 19 copies de sauvegarde complètes .
Sinon, vous pouvez conserver 10 sauvegardes complètes plus une quantité ridicule de sauvegardes différentielles.

Naturellement, si vous voulez une sauvegarde hors site, vous aurez besoin d'une sorte de bande passante importante ... :-)


5
Si vos données et votre travail sont importants pour vous, vous ne devriez pas essayer de créer votre propre pod de backblaze à partir de rien. Cela semble être une bonne idée, jusqu'à ce que vous réalisiez que vous mettez tous vos œufs dans un très grand panier. Pire encore, ce panier n’a pas été testé comme un tout intégré à fond. La sauce secrète de backblaze est la réplication logicielle sur de nombreux pods, ce qui permet à des pods entiers d’échouer de manière transparente. Je recommanderais plutôt un serveur de stockage supermicro, centos, xfs et rdiff-backup.
bugaboo

-1

Mon collègue a acheté un NAS Synology à 8 disques. Il exécute un RAID hybride. Il a acheté il y a quelques semaines huit Seagate Barracuda de 3 To auprès de NewEgg pour 89 $ chacun. Vous pouvez rsynchroniser le miroir du NAS de production à ce nouveau NAS sur GigaBit. Comme vous ne faites que transférer les différences, le transfert prendra moins de temps. Vous pouvez ensuite utiliser le NAS de sauvegarde pour effectuer des sauvegardes complètes ou incrémentielles. Le coût pour vous serait de moins de 2 000 $ pour un NAS de secours.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.