TLDR
La question initiale n'était pas claire et indiquait que le PO voulait simplement une version unique du contenu d'un fichier. C'est indiqué ci-dessous. Dans la forme mise à jour de la question depuis, le PO déclare maintenant qu'il / elle veut simplement savoir si le contenu du fichier est unique ou non.
Tester si le contenu du fichier est unique ou non
Vous pouvez simplement utiliser sort
pour vérifier si un fichier est unique ou contient des doublons comme ceci:
$ sort -uC input.txt && echo "unique" || echo "duplicates"
Exemple
Disons que j'ai ces deux fichiers:
fichier d'exemple en double
$ cat dup_input.txt
This is a thread 139737522087680
This is a thread 139737513694976
This is a thread 139737505302272
This is a thread 139737312270080
This is a thread 139737203164928
This is a thread 139737194772224
This is a thread 139737186379520
fichier d'exemple unique
$ cat uniq_input.txt
A
B
C
D
Maintenant, lorsque nous analysons ces fichiers, nous pouvons dire s'ils sont uniques ou contiennent des doublons:
tester le fichier de doublons
$ sort -uC dup_input.txt && echo "unique" || echo "duplicates"
duplicates
tester un fichier unique
$ sort -uC uniq_input.txt && echo "unique" || echo "duplicates"
unique
Question d'origine (contenu unique du fichier)
Peut être fait avec juste sort
:
$ sort -u input.txt
This is a thread 139737186379520
This is a thread 139737194772224
This is a thread 139737203164928
This is a thread 139737312270080
This is a thread 139737505302272
This is a thread 139737513694976
This is a thread 139737522087680