Déduplication au niveau bloc sous Linux

10

NetApp fournit la déduplication au niveau du bloc (ASIS). Connaissez-vous un système de fichiers (même basé sur FUSE) sous Linux (ou OpenSolaris, * BSD) qui offre la même fonctionnalité?

(Je ne suis pas intéressé par la fausse déduplication comme les hardlinks).

linux netapp deduplication

— Benoît
source

6

Vérifiez lessFS, système de fichiers de déduplication des données, pour Linux. Il est toujours en version bêta mais vous pouvez l'essayer:

http://www.lessfs.com/

Cordialement,

MV

— MV.
source

Excellent! C'est encore bêta, mais c'est certainement quelque chose pour commencer.

— Benoît

7

La déduplication arrive sur ZFS sur OpenSolaris mais cette fonctionnalité n'est pas disponible actuellement.

Il a été prototypé par Jeff Bonwick et Bill Moore l'hiver dernier et ils travaillent à son intégration cet été. Il devrait donc être disponible dans la prochaine version d'OpenSolaris ou plus tôt si vous voulez jouer avec la branche de développement.

— 3dinfluence
source

Voir la réponse de @ jlliagre - elle est disponible dès maintenant.

— James Moore

4

Pour les personnes qui ne connaissent peut-être pas la déduplication des données, il s'agit d'une technique par laquelle les données sont analysées au niveau du fichier (ou du bloc, je suppose) et où des fichiers / blocs identiques dans tout le système de fichiers sont remplacés par un jeton plus petit. Cela a pour effet de réduire considérablement la taille effective du disque. Cela pourrait être considéré comme une forme de copie sur écriture . Lisez la page wiki à ce sujet.

Il n'y a aucun système de fichiers dont j'ai entendu parler sous Linux pour faire de la déduplication, des fichiers ou des blocs. Une telle bête serait pratique, bien que très gourmande en processeur.

— Matt Simmons
source

4

La déduplication est désormais disponible avec ZFS sur OpenSolaris (build 128a et versions ultérieures).

— jlliagre
source

2

Un an plus tard, mais voici une solution pour OpenBSD appelée Epitome: http://www.peereboom.us/epitome/ . À condition qu'il s'agisse d'une licence libérale, il pourrait très bien en faire partie du noyau Linux.

1

Je viens de publier un projet sur lequel je travaille qui fait la déduplication en ligne. Vous pouvez y jeter un œil ici si vous êtes intéressé. Il est basé sur Fuse et fonctionne sur Linux.

0

Je ne connais aucune implémentation gratuite de dedup pour Linux. J'ai vu certains fournisseurs de stockage recommander l'utilisation d'un système HSM (gestion de stockage hiérarchique) avec une VTL (bibliothèque de stockage virtuelle) qui fait de la déduplication.

Vous pouvez également envisager un système de type Occarina qui n'est pas transparent mais peut fournir de meilleurs résultats que la déduplication.

— James
source

0

donc ... pas de nouvelles sur la déduplication sous Linux? opendedup pourrait être un choix, mais étant donné la plate-forme java sur laquelle il fonctionne, je ne veux pas avoir de maux de tête. Je l'ai essayé oui, mais cette machine java et le reste ne répondent pas très bien à mes besoins de temps de réponse de stockage et de sécurité.

0

L'option de déduplication est disponible sous Linux, sur les systèmes de fichiers BTRFS et ZFS. BTRFS est développé nativement sous linux et dispose d'un outil de déduplication hors ligne. Je ne pense pas "hors ligne", vous devez démonter fs. Hors ligne signifie que les données écrites activement ne sont pas dédupliquées. Mais plus tard, vous exécutez l'outil de dédoublonnage pense stocké maintenant. En fait, probablement l'outil est en version bêta. L'autre façon est à l'intérieur de ZFS. Disponible en FUSE et nativement: http://zfsonlinux.org/ . Cela fait la déduplication en ligne, malheureusement, cela ralentit, car tout doit être calculé à la volée. Vous pouvez désactiver et réactiver ce comportement en ligne. Une fois la déduplication désactivée, toutes les données dédupliquées seront toujours stockées comme dédupliquées. Les nouvelles écritures seront stockées comme «dupliquées». Si vous souhaitez dédupliquer ces données à l'avenir, vous devez activer la déduplication et réécrire tous les fichiers «dupliqués».

Voir doc disponible sur la page. Pour accélérer les écritures et les lectures, vous pouvez ajouter des appareils plus rapides au pool de stockage (spécialement les lecteurs SDD ou peut-être un flash USB plus rapide, faites attention à la fiabilité de l'appareil).

— Znik
source

-2

DRBD fait exactement cela et le fait très bien! Peut faire Master / Slave ou Master / Master :-)

— Antoine Benkemoun
source

Pourriez-vous s'il vous plaît me diriger vers le document de déduplication? Je ne le trouve pas sur drbd.org/home/feature-list .

— Benoît

Je pense qu'Antoine voulait dire "duplication", ce qui n'est pas vraiment ce que vous cherchiez, je sais

— Matt Simmons

oh mon mauvais, quelle est la différence entre la duplication et la déduplication?

— Antoine Benkemoun

J'ai mis une explication rapide dans mon commentaire, mais essentiellement la duplication envoie les données à un autre hôte, où la déduplication élimine les informations identiques dans tout le système de fichiers, augmentant ainsi l'espace libre effectif

— Matt Simmons