Transférer 10 To de fichiers des États-Unis au centre de données britannique


96

Je migre mon serveur des États-Unis vers le Royaume-Uni d'un centre de données à un autre. Mon hôte a dit que je devrais pouvoir atteindre 11 mégaoctets par seconde.

Le système d'exploitation est Windows Server 2008 aux deux extrémités.

Ma taille moyenne de fichier est d'environ 100 Mo. Les données sont réparties sur cinq lecteurs de 2 To.

Quelle serait la méthode recommandée pour transférer ces fichiers?

  • FTP
  • PME
  • Rsync / Robocopy
  • Autre?

La sécurité ne me préoccupe pas trop, car ce sont des fichiers publics de toute façon, mais je veux juste une solution capable d’augmenter le débit de transfert de 11 Mo / s afin de minimiser le temps de transfert total.


19
11 Mo / s ou 11 Mb / s?
wim

14
transférer les données sur une carte perforée binaire et utiliser un pigeon
voyageur

9
Vous devriez fournir des détails. Combien de pigeons voyageurs pensez-vous que cela prendrait? Montre ton travail.
Evik James

18
@Evik Européen ou Africain?
wim

8
De plus, Wolfram Alpha est le moyen le plus pratique de faire le calcul, "10 To à 11Mo / s". wolframalpha.com/input/?i=10+TB+at+11MB%2Fs
pufferfish

Réponses:


173

Expédiez plutôt des disques durs à travers l'océan.

À 11 Mbps avec une utilisation complète, il ne vous reste que 90 jours pour transférer 10 To.


11 Mbps = 1,375 Mbps = 116,015 Go / jour .

10240 Go / 116,015 Go / jour = ~ 88,3 jours .


42
+1 pour Sneakernet . En outre, vous avez oublié la surcharge TCP / IP. Cela ressemble plus à environ 100 jours dans des circonstances idéales.
Chris S

43
Un homme sage a dit un jour "Ne sous-estimez jamais la bande passante d’un break plein de cassettes qui défilent sur l’autoroute". Cette équation est très vraie et ne change pas substantiellement en changeant le break pour un bateau. ( bpfh.net/sysadmin/never-underestimate-bandwidth.html )
Rob Moir,

5
Il est préférable d’envoyer des bandes, ou des disques Blu-ray, plutôt que des lecteurs. Si vous utilisez des lecteurs, assurez-vous que les originaux sont conservés en sécurité et disponibles au cas où. Je choisirais les disques moi-même (à moins que je ne dispose de disques Ultrium 4), car 10 To = 410 disques blueray simple couche!
Allen

9
Je viens de me rendre compte que j’ai tapé 11Mbps, mais c’est ce que j’ai voulu dire en réalité, c’était 11Mo / s. Je suppose que cela fait une grosse différence, mes calculs la situent autour de 11-14 jours environ… est-ce correct?
Paul Hinett

18
Je crois toujours que l'envoi d'un utilisateur supervisé avec la sauvegarde de 10 To alors que le disque officiel fonctionne toujours, puis une fois la configuration terminée, vous pouvez lancer un rsync pour mettre à jour le nouveau serveur en cas de modification. Vous auriez votre machine en marche dans environ un jour.
Loïc Faure-Lacroix

26

Je dirais que rsync, à 11 Mo / s, vous regarderez 10 à 14 jours et même si vous êtes interrompu, rsync démarrera facilement là où il s’était arrêté la dernière fois.

À 11 Mbps, j'expédierais les disques durs comme suggéré ci-dessus :)


1
Votre estimation diffère de manière très significative de ce que les autres ont publié (et je ne sais pas qui est correct). Pouvez-vous fournir votre méthodologie pour arriver à ces chiffres?
John Gardeniers

9
La différence découle du fait que le PO a mal déclaré 11 Mbps alors qu’il parlait en fait de 11 Mbps - ce qui est 8 fois plus rapide. BTW, redémarrer un 10 To rsync dans le cas d'une interruption prendra probablement un certain temps, n'est-ce pas? Heures ou plus?
Frank Farmer

@FankFarmer: Je ne m'inquiéterais pas du redémarrage de rsync; Je conserve une copie hors site de ~ 20 To sur une ligne sans fil à 30 Mbps, et le redémarrage s'effectue dans la plage des secondes. la copie initiale a pris quelques semaines, mais la mise à jour nocturne prend généralement quelques heures.
Javier

@FankFarmer - rsync semble évoluer très bien. J'ai environ 2 To sur une ligne ADSL1 rurale initiée avec sneakernet, mais il faut environ 5 minutes pour effectuer une synchronisation tous les soirs si rien n'a changé.
Flexo

6
Le temps de redémarrage de rsync varie en fonction du nombre de fichiers (principalement de l' statheure, selon mon expérience), et non de la totalité des données. Je ne m'attendrais pas à une attente significative (plusieurs minutes tout au plus). Bien que mon expérience avec rsync dépasse un peu moins de 5 To.
derobert

15

Rsync bien sûr.

Au moins, vous pouvez continuer à tout moment après une pause, et cela sans douleur.


7
3 mois ou plus pour copier à 100% d'utilisation. Désolé, mais c’est un moyen terrible de transférer autant de données.
Chris S

Je suis d'accord avec @ChrisS, utiliser rsyncsimplement pour copier des fichiers volumineux n'est pas efficace. Pour mes affaires, j'ai fini par utiliser tarplus netcatou sshpour le transfert initial. Il est beaucoup plus rapide et commence à transférer immédiatement, tout rsyncen analysant d’abord tous les fichiers, ce qui prend du temps. Si cela vous interrompt, vous pourrez toujours l'utiliser rsyncultérieurement. En fait, je le fais parfois de temps en temps tarpour vérifier que toutes les autorisations, les fichiers de socket, etc. sont corrects.
Martin Scharrer

1
Une fois que l'OP a corrigé le fait qu'il dispose d'une connexion d'environ 100 Mo, et non de 11 Mo, rsync est beaucoup plus logique. +1 pour le premier à le mentionner.
Chris S

12

Ne sous-estimez jamais la bande passante d'un break rempli de cassettes

- Trad.

Dans votre cas, les disques ou bandes envoyés par courrier, mais le principe s'applique toujours. Si vous ne vous inquiétez pas de la latence, cela coûtera beaucoup moins cher que la bande passante du réseau pour transférer 10 To de données dans un délai raisonnable.


Jeff Atwood a passé les numéros dans l'un de ses anciens messages de Coding Horror. Codinghorror.com/blog/2007/02/the-economics-of-bandwidth.html
attente du

10

Vous devriez utiliser rsync. Il compressera les données et les dédoublera avant de les envoyer. Il peut également reprendre des transferts partiels, ce qui est très important pour les transferts importants.

Il est probable que cela ne transfère pas 10 To; si ce sont des journaux et du texte, ils pourraient être inférieurs à 1 To; peut-être bien en dessous de 1 To.

Il existe des outils qui font un meilleur travail de compression que rsync et qui trouvent probablement plus de correspondances. Vous pouvez utiliser lrzip, etc.

Il existe des types de données spécifiques qui ne se compressent pas bien et ne contiennent pas de dupes littérales - vidéos et autres médias, par exemple. Dans ces cas, FTP et rsync font à peu près le même effort.


3
RSync déduplique les données? Je pense que cela ne se fait qu'au niveau du fichier, ce qui signifie que la déduplication est généralement inutile dans ce cas.
devicenull

6

Je sais que cela est déjà accepté, mais avez-vous déjà envisagé de transférer vos disques vers un centre de données, un fournisseur ou un hôte où vous pouvez obtenir plus de bande passante? Cela vous coûtera probablement un peu d’argent, mais la copie de 10240 Go sur des disques de sauvegarde et l’envoi en coûteront également du temps et de l’argent (2 x argent).

De plus, vous serez sûr que vos disques ne casseront pas pendant le transport


En quoi cette réponse est-elle différente de la réponse acceptée?
Chris S

2
@Chris Cette réponse suggère de transporter les disques vers un plus grand tuyau sur le même continent.
Alex Jasmin

5

11 Mbps? C'est tout à fait une limitation que vous avez ici. Dans votre situation, je voudrais simplement:

  • Cloner les données
  • Le compresser
  • Louez des serveurs des deux côtés avec au moins 10 fois plus de bande passante (dans les mêmes centres de données ou dans un centre de données proche de vous).
  • Transférer les fichiers
  • Appliquez les données au nouveau serveur.

Si vous n'avez vraiment pas de solution pour augmenter la bande passante ... Expédier un disque physique sera bien plus rapide.

De mon expérience douloureuse, les disques durs ont tendance à casser le courrier ... Les clés USB sont une meilleure solution pour les transferts fréquents de données. Dans votre cas, il en faudrait quelques-uns :) Envoyez donc deux copies de vos données sur plusieurs disques durs.

Compte tenu de la quantité de données dont vous disposez, vous pouvez également envoyer des disques d'un ensemble RAID 5 ou RAID 6 si vous avez le même matériel / logiciel de l'autre côté pour brancher vos disques. Mais dans ce cas, n'oubliez pas de marquer l'ordre de vos disques. et leurs numéros de série afin qu'ils ne soient pas mélangés lors de la reconfiguration.


1
désolé, le 11Mbps était un type d'erreur, il est de 11Mo / s ... j'ai mentionné dans l'un des commentaires ci-dessus.
Paul Hinett

4

Bien que je sois d’accord sur la réponse «expédiez-le avec des disques durs» dans ce cas, voici une solution de copie que j’utilise lorsque je dois copier un grand nombre de fichiers pour la première fois:

Bien qu'il rsyncsoit bon de garder deux stockages de données synchronisés, cela introduit un surcoût inutile pour le transfert initial. Je pensais que le moyen le plus rapide est de tarse faire passer par dessus netcat. Sur le site récepteur, vous pouvez également utiliser netcaten mode écoute les canaux qui acheminent les données entrantes vers une extraction tar. L'avantage est que l' tarenvoi commence immédiatement et l' netcatenvoie sous forme de flux TCP simple sans surcharge de protocole supplémentaire. Cela devrait être aussi rapide que possible. Cependant, il n'est pas simple de redémarrer un transfert interrompu à la dernière position.

Il est également facilement possible de compresser les données pour le transfert en utilisant les bonnes taroptions ou d’ajouter un outil de compression dans les tuyaux. Notez que netcatla date n'est pas chiffrée. Dans les cas où ce n'est pas une option, une sshconnexion cryptée peut être utilisée à la place ( tar <options> | ssh <target> -c 'tar -x <options>').

Si toutes les données sont transférées, vous rsyncpouvez vous assurer que tous les fichiers mis à jour entre-temps sont synchronisés. De plus, l'IIRC tarne crée pas de sockets qui seraient perdus sinon, mais ils ne sont pas vraiment utilisés pour les données de centre de données.


L'inconvénient est qu'il n'est pas tolérant aux interruptions
Joel Coel

3

Avez-vous envisagé IPoAC ?

Un seul pigeon peut transporter des dizaines de giga-octets de données en une heure environ, ce qui, sur une base de bande passante moyenne, se compare très favorablement aux normes ADSL actuelles, même en tenant compte des lecteurs perdus.


21
Les pigeons subiraient une perte de signal à la distance décrite par le PO.
Roy Tinker

@RoyTinker Cleared IPoAC doit être mis en œuvre à l'aide d'un processus de fenêtrage.
JamesBarnett

3

Encore une fois, la première suggestion consiste à expédier les lecteurs.

La deuxième suggestion est d’utiliser rsync pour rsyncd, pas sur SSH. J'ai essayé beaucoup de choses et c'est généralement le plus rapide. N'oubliez pas d'activer la compression. En outre, augmentez ou diminuez la taille de la mémoire tampon rsync pour obtenir le taux de transfert optimal. Cela peut également aider à augmenter la taille de votre MTU . Cela n’aidera que si les routeurs en route ne fragmentent pas vos paquets. Il existe des moyens de déterminer s'ils le font.

Malheureusement, il n'y a pas de réglage qui soit toujours le meilleur. Vous devrez expérimenter pour trouver ce qui fonctionne le mieux dans votre situation.


2

Vous avez mentionné que les serveurs exécutent Windows 2008. Microsoft DFS convient-il? Il existe une certaine magie dans le bas de gamme qui tente de tirer le maximum de bande passante de la connexion, ainsi que de la compression et de la déduplication (IIRC).

Attention, les disques durs, les DVD ou les BluRays seraient plus rapides ... Mon calcul est de 11 jours à 11 Mo / s ...


1

Vous pouvez utiliser un torrent pour cela.

Créez un torrent privé à une extrémité et utilisez le client de l'autre.

Bien que le cryptage soit en place, vous devez vérifier vos besoins.


1
Une relation torrent de 1 à 1 n’est pas meilleure qu’un transfert de fichier de 1 à 1. S'il y a un nombre limité de conduites entre les deux sites, vous avez besoin de plusieurs semoirs sur des conduites différentes, idéalement répartis géographiquement.
Jeremy

@ Jeremy - ce n'est ni meilleur ni pire en termes de débit. Cela peut être meilleur en termes de fiabilité (pause / reprise facile), ce qui pour cette taille de la taille pourrait être important
Joel Coel
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.