Comment les grandes entreprises sauvegardent-elles leurs données?

8

Comment les entreprises qui gèrent de grandes quantités de données, par exemple Google ou Facebook, sauvegardent-elles tout?

Selon cet article de la plateforme Google sur Wikipédia, Google a environ 450 000+ serveurs chacun avec un disque dur de 80+ Go. Ça fait beaucoup de données. Gardent-ils vraiment 1+ Go de sauvegarde pour chaque 1 Go de données?

backup google large-data

— Olivier Lalonde
source

Je doute que Boogle sauvegarde le logiciel des serveurs car ils semblent pouvoir construire un serveur à partir de métal nu très rapidement. Ils semblent avoir des copies de sauvegarde des données utilisateur.

— BillThor

Eh bien, Google compte plus d'un million de serveurs (depuis 2007): pandia.com/sew/481-gartner.html

— Kedare

Je pense que vous faites une erreur fondamentale: GOogle a BEAUCOUP de serveurs tous étant SIMILAIRES. Nœuds de serveurs X desservant l'index. Vous ne sauvegardez pas le même indice un million de fois.

— TomTom

8

Cela dépend de votre objectif.

Si vous recherchez des sauvegardes pour la récupération après sinistre (serveur éclaté, datacentre brûlé, etc.), la réponse courte est qu'ils ne peuvent pas faire de sauvegardes du tout. Nous avons un client qui traite des données gouvernementales sensibles, et une partie de son mandat est que nous ne sommes pas autorisés à effectuer des sauvegardes ou des sauvegardes sur des supports amovibles . Nous sommes autorisés à répliquer en direct sur un site DR et c'est tout. Les deux sites sont couverts par le même niveau de sécurité physique et logique. Le hic ici est que si je vis quelque chose sur le site A, il est répliqué sur le site B presque instantanément.

Si vous parlez de sauvegardes du point de vue de l'intégrité des données (par exemple, vous avez accidentellement supprimé la table Customers et elle est déjà répliquée sur le site DR), les bandes LTO-5 dans une grande bibliothèque de bandes sont souvent la solution. Avec jusqu'à 3 To par bande et plusieurs bandes dans une bibliothèque de bandes, vous pouvez rapidement sauvegarder de grandes quantités de données (rapide ici se réfère à Mbps, il peut encore prendre de nombreuses heures pour sauvegarder 25 To de données).

Toute suite de sauvegarde décente effectuera une compression et une déduplication élevées, ce qui réduit considérablement la quantité d'espace de stockage requise. J'ai vu une estimation pour un outil de sauvegarde Exchange compressé et déduposé une fois qui réclamait un rapport de 15: 1 (15 Go de données stockées dans 1 Go de sauvegardes).

Je doute fort que Google se soucie des sauvegardes pour beaucoup de leurs données de moteur de recherche, car la plupart d'entre elles sont remplaçables et distribuées si loin que si elles perdent même une partie importante, ou peut-être même un centre de données entier, le système reste en ligne grâce aux routes de basculement BGP.

En fait, il semble que Google sauvegarde une bande de données métriques sur bande , ce qui n'est pas tout à fait ce à quoi je m'attendais:

Fait partie de la bibliothèque de bandes Google

— Mark Henderson
source

2

La plupart de leurs données sont stockées sur leur propre système de fichiers GFS, et GFS requiert qu'il y ait au moins trois copies de chaque bloc de 64 Mo qui crée un fichier (GFS utilise des blocs de 64 Mo). Cela dit, je ne pense pas qu'ils se soucient des sauvegardes, car ils ont au moins trois copies de chaque fichier, et les blocs sur le nœud défaillant peuvent être rapidement remplacés en répliquant simplement les données de l'une des deux bonnes copies restantes vers un nouveau nœud.

Pour plus d'informations, consultez http://labs.google.com/papers/gfs.html

— ipozgaj
source

1

La redondance augmente la disponibilité, mais ce n'est pas exactement une sauvegarde (et vous ne l'avez pas appelé ainsi) car elle est facile à remplacer.

— Tobu

Oui, c'est un bon point. Mon point était simplement qu'ils n'ont probablement pas besoin de sauvegardes pour la plupart de leurs données.

— ipozgaj

0

La réponse de farseeker est bonne mais je pense qu'elle pourrait être clarifiée en y réfléchissant dans cette perspective: qu'essayez-vous de restaurer? Est-ce pour DR? Quel est le temps de récupération requis? Par exemple, supposons que votre entreprise s'appuie sur une base de données de serveurs SQL de 25 To. En cas d'échec ou d'erreur de données (table supprimée, base de données corrompue, etc.), le CTO souhaite pouvoir récupérer la base de données en moins d'une heure. En cas de défaillance du site, 2 heures sont nécessaires.

À première vue, cela semble difficile, mais ce n'est pas impossible. Puisque vous savez que votre stratégie de sauvegarde doit récupérer en une heure, vous savez que vous n'allez pas restaurer des sauvegardes complètes, vous devrez travailler avec les équipes dba pour vous assurer que la base de données est partitionnée en morceaux gérables. Vous allez également effectuer des sauvegardes trans-log fréquentes. Pour DR, il faudrait envisager une stratégie de réplication (peut-être une version temporisée avec des données de journal répliquées en temps réel mais non appliquées). Comme l'a dit farseeker, cela dépend du but, et ce but devrait être de faire une certaine forme de récupération.

— Jim B
source