Bonne taille de bloc pour le clonage de disque avec diskdump (dd)


46

J'utilise dd dans sa forme la plus simple pour cloner un disque dur:

dd if=INPUT of=OUTPUT

Cependant, j'ai lu dans la page de manuel que dd connaissait un paramètre blocksize. Existe-t-il une valeur optimale pour le paramètre blocksize qui accélérera la procédure de clonage?


Réponses:


32

64k semble être un bon choix:

Results:

  no bs=        78s     144584+0 records
  bs=512        78s     144584+0 records
  bs=1k         38s     72292+0 records
  bs=2k         38s     36146+0 records
  bs=4k         38s     18073+0 records
  bs=5k         39s     14458+1 records
  bs=50k        38s     1445+1 records
  bs=500k       39s     144+1 records
  bs=512k       39s     144+1 records
  bs=1M         39s     72+1 records
  bs=5M         39s     14+1 records
  bs=10M        39s     7+1 records

(pris d' ici ).

cela correspond à mes propres conclusions concernant la mise en mémoire tampon en lecture / écriture pour accélérer un programme de conversion io-lourd que jadis pimpait @work.


Veuillez noter que cette référence peut sembler différente pour les lecteurs en rotation et les SSD.
Jiri

3
-1 Cela dépend presque entièrement de votre disque dur. Décrivez plutôt la procédure utilisée pour obtenir ces valeurs afin que l'OP puisse répéter les étapes pour obtenir la taille de bloc optimale pour son propre disque dur. En outre, vous n'avez pas répertorié 64k dans votre liste de résultats et tous les résultats passés après 1k sont plus ou moins les mêmes.
Micheal Johnson

@MichealJohnson ne hésitez pas à éditer ce post et prendre la description de la façon dont cette table a été générée à partir du lien fourni et le coller ici. 64k est la première valeur qui ne semble pas apporter d'amélioration supplémentaire en termes de vitesse ET est un alignement naturel. et oui, il est évident que la vitesse mesurée dépend entièrement du matériel utilisé. c'était vrai il y a 5 ans et c'est vrai maintenant.
Akira

1
Pourquoi 64k? Pour moi, 2k ne donne aucune amélioration supplémentaire et donc 1k est la meilleure valeur, et un alignement aussi naturel que 64k.
Micheal Johnson

La taille de bloc modifie-t-elle les performances de la carte SD ou ne coupe-t-elle que la taille du fichier en mouvement en utilisant dd sur sdcard?
Trismegistos

22

dd sera heureux de copier en utilisant la BS de ce que vous voulez, et copiera un bloc partiel (à la fin).

Fondamentalement, le paramètre block size (bs) semble définir la quantité de mémoire utilisée pour lire un bloc à partir d’un disque avant d’essayer d’écrire ce bloc sur un autre.

Si vous disposez de beaucoup de RAM, alors que la taille de la BS soit importante (mais entièrement contenue dans la RAM) signifie que le sous-système d’E / S est utilisé au maximum en effectuant des lectures et écritures de grande taille - en exploitant la RAM. Réduire la taille de la station de base signifie que les frais généraux d’entrée / sortie augmentent en proportion de l’activité totale.

Bien entendu, il existe une loi des rendements décroissants. Mon estimation approximative est qu’une taille de bloc comprise entre 128K et 32M donnera probablement des performances telles que les frais généraux sont minimes par rapport à la périphérie simple et qu’une taille supérieure ne fera pas une grande différence. La limite inférieure de 128K à 32M s'explique par le fait que cela dépend de votre système d'exploitation, de votre matériel, etc.

Si c’était moi, je ferais quelques expériences pour chronométrer une copie / un clone en utilisant un BS de 128K et encore en utilisant (disons) 16M. Si l'on est sensiblement plus rapide, utilisez-le. Sinon, utilisez le plus petit BS des deux.


10

Pour ceux qui se retrouvent ici via Google, même si cette discussion est un peu ancienne ...

N'oubliez pas que dd est stupide pour une raison: plus c'est simple, moins il y a de façons de faire foirer.

Les schémas de partitionnement complexes (considérons un disque dur à double amorçage utilisant également LVM pour son système Linux) vont commencer à extraire les bogues du bricolage dans des programmes comme Clonezilla. Les systèmes de fichiers mal montés peuvent faire exploser ntfsclone.

Un système de fichiers corrompu, secteur par secteur, n'est pas pire que l'original. Un système de fichiers corrompu après une "copie intelligente" défaillante peut être dans une forme vraiment désolée.

En cas de doute, utilisez dd et passez à la médecine légale. L'imagerie médico-légale nécessite des copies secteur par secteur (en fait, elle peut nécessiter plus de secteurs que vous ne pourrez en extraire avec jj, mais c'est une longue histoire). C'est lent et fastidieux, mais le travail sera fait correctement.

En outre, de connaître les « conv = noerror, synchronisation » des options, de sorte que vous pouvez cloner les lecteurs qui commencent à faire fail-- ou ISOs rayé ( toux ) CDs-- sans elle prendre des mois.


Que fait l' syncoption? La page de manuel dit simplement: "use synchronized I/O for data and metadata". Avec quoi synchronisons-nous? Cela peut être beaucoup de choses différentes.
sherrellbc

1
@sherrellbc sync remplit les blocs d'entrées avec des zéros s'il y a des erreurs de lecture, afin que les décalages de données restent synchronisés.
Goetzc

9

Comme d’autres l’ont dit, il n’existe pas de taille de bloc universelle; ce qui est optimal pour une situation ou un matériel peut être terriblement inefficace pour un autre. En outre, en fonction de l'état des disques, il peut être préférable d'utiliser une taille de bloc différente de celle qui est "optimale".

Une chose qui est assez fiable sur le matériel moderne est que la taille de bloc par défaut de 512 octets a tendance à être presque d'un ordre de grandeur plus lente qu'une alternative plus optimale. En cas de doute, j'ai trouvé que 64K est un défaut moderne assez solide. Bien que 64K ne soit généralement pas la taille de bloc optimale, selon mon expérience, il a tendance à être beaucoup plus efficace que celui par défaut. 64K a également une solide réputation de fiabilité: vous pouvez trouver un message de la liste de diffusion Eug-Lug, circa 2002, recommandant une taille de bloc de 64K ici: http://www.mail-archive.com/eug- lug@efn.org/msg12073.html

Pour déterminer LA taille de bloc de sortie optimale, j'ai écrit le script suivant qui teste l'écriture d'un fichier de test 128M avec dd dans une plage de tailles de blocs différentes, allant de la valeur par défaut de 512 octets à un maximum de 64M. Soyez averti, ce script utilise dd en interne, utilisez-le avec prudence.

dd_obs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Calculate number of segments required to copy
  COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))

  if [ $COUNT -le 0 ]; then
    echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
    break
  fi

  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Create a test file with the specified block size
  DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)

  # Extract the transfer rate from dd's STDERR output
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  # Clean up the test file if we created one
  if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

  # Output the result
  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

Voir sur GitHub

Je n’ai testé ce script que sur un système Debian (Ubuntu) et sur OSX Yosemite. Il faudra donc probablement peaufiner certaines modifications pour pouvoir fonctionner sur d’autres versions Unix.

Par défaut, la commande crée un fichier de test nommé dd_obs_testfile dans le répertoire en cours. Vous pouvez également fournir un chemin d'accès à un fichier de test personnalisé en spécifiant un chemin après le nom du script:

$ ./dd_obs_test.sh /path/to/disk/test_file

La sortie du script est une liste des tailles de blocs testées et de leurs taux de transfert respectifs, ainsi:

$ ./dd_obs_test.sh
block size : transfer rate
       512 : 11.3 MB/s
      1024 : 22.1 MB/s
      2048 : 42.3 MB/s
      4096 : 75.2 MB/s
      8192 : 90.7 MB/s
     16384 : 101 MB/s
     32768 : 104 MB/s
     65536 : 108 MB/s
    131072 : 113 MB/s
    262144 : 112 MB/s
    524288 : 133 MB/s
   1048576 : 125 MB/s
   2097152 : 113 MB/s
   4194304 : 106 MB/s
   8388608 : 107 MB/s
  16777216 : 110 MB/s
  33554432 : 119 MB/s
  67108864 : 134 MB/s

(Remarque: l'unité des taux de transfert variera selon le système d'exploitation)

Pour tester la taille optimale du bloc de lecture, vous pouvez utiliser plus ou moins le même processus, mais au lieu de lire dans / dev / zero et d'écrire sur le disque, vous devez lire à partir du disque et écrire dans / dev / null. Un script pour faire cela pourrait ressembler à ceci:

dd_ibs_test.sh:

#!/bin/bash

# Since we're dealing with dd, abort if any errors occur
set -e

TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728

# Exit if file exists
if [ -e $TEST_FILE ]; then
  echo "Test file $TEST_FILE exists, aborting."
  exit 1
fi
TEST_FILE_EXISTS=1

if [ $EUID -ne 0 ]; then
  echo "NOTE: Kernel cache will not be cleared between tests without sudo. This will likely cause inaccurate results." 1>&2
fi

# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1

# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'

# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
  # Clear kernel cache to ensure more accurate test
  [ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches

  # Read test file out to /dev/null with specified block size
  DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)

  # Extract transfer rate
  TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')

  printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done

# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi

Voir sur GitHub

Une différence importante dans ce cas est que le fichier de test est un fichier écrit par le script. Ne pointez pas cette commande sur un fichier existant, sinon le fichier existant sera écrasé par des données aléatoires!

Pour mon matériel particulier, j’ai trouvé que 128 Ko était la taille de bloc d’entrée la plus optimale sur un disque dur et 32K était la meilleure sur un SSD.

Bien que cette réponse couvre la plupart de mes découvertes, je me suis souvent heurtée à cette situation et j'ai écrit un article à ce sujet dans un blog: http://blog.tdg5.com/tuning-dd-block-size/ Vous pouvez trouver plus de détails. sur les tests que j'ai effectués là-bas.

Cet article de StackOverflow peut également être utile: dd: Comment calculer la taille de bloc optimale?


3

Oui, mais vous ne le trouverez pas sans beaucoup de tests. J'ai trouvé que 32M est une bonne valeur à utiliser cependant.


1

clonage de l'ancien lecteur de démarrage vers un nouveau fichier SSD sur un fichier SATA externe (de SSD à SSD)

  • Utilisation de Linux Ubuntu 18.04.2 LTS 64bit
  • hp xw4600 (8 Go de RAM, Intel Core 2 Quad Q6700 @ 2,66 GHz, 4c / 4t non-HT)

Utilisation de disques (outil)> format> ATA Secure Erase (2min)

$ lsblk -l /dev/sd?
NAME MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda    8:0    0 119,2G  0 disk 
sda1   8:1    0 119,2G  0 part /
sdb    8:16   0   2,7T  0 disk 
sdc    8:32   0   2,7T  0 disk 
sdd    8:48   0  12,8T  0 disk 
sde    8:64   0   2,7T  0 disk
sdf    8:80   1 465,8G  0 disk 

$ sudo fdisk -l /dev/sda
Disk /dev/sda: 119,2 GiB, 128035676160 bytes, 250069680 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes

$ sudo fdisk -l /dev/sdf
Disk /dev/sdf: 465,8 GiB, 500107862016 bytes, 976773168 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 4096 bytes
I/O size (minimum/optimal): 4096 bytes / 4096 bytes
  • sda: Kingston SSD (old; Disks signale un débit moyen de 263 Mo / s avec des pics proches de 270 Mo / s - aucun test d'écriture en raison du disque système)
  • sdf: Crucial MX500, 500 Go, CT500MX500SSD1 (Rapports de disques: taux de rotation / écriture moyen de 284/262 Mo / s et temps d’accès de 0,05 ms, avec des pics d’environ 290/270 Mo / s)

Tests effectués:

$ sudo dd if=/dev/sda of=/dev/sdf
250069680+0 records in
250069680+0 records out
128035676160 bytes (128 GB, 119 GiB) copied, 3391,72 s, 37,7 MB/s
#       --vvvvv--                            *********
$ sudo dd bs=1M if=/dev/sda of=/dev/sdf
122104+1 records in
122104+1 records out
128035676160 bytes (128 GB, 119 GiB) copied, 473,186 s, 271 MB/s
#                                            *********  ********

deuxième essai après effacement sécurisé avec le même résultat:

128035676160 bytes (128 GB, 119 GiB) copied, 472,797 s, 271 MB/s

Bienvenue sur Super User! Merci pour votre réponse, mais je vous suggère de le modifier pour inclure le résumé; parmi toutes les sorties citées, j'ai trouvé difficile de trouver votre réponse exacte! Cheers
Bertieb le
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.