méthode pour soustraire des chaînes de texte communes dans deux fichiers?


0

J'ai deux fichiers texte, l'un avec 100 000 chaînes et l'autre avec 1 000 chaînes, qui sont déjà présentes dans le fichier plus grand. Je voudrais soustraire ces 1 000 chaînes, de sorte que le fichier plus volumineux ne contienne alors que 99 000. Il ne s’agit pas de supprimer les doublons, mais plutôt de supprimer les chaînes.

Y a-t-il une commande pour le faire.


Quel système d'exploitation utilisez-vous? Cela ressemble à quelque chose que vous pourriez faire sur une ligne de commande Linux avec plusieurs méthodes différentes.
drk.com.ar

Win XP, j'ai peur ...
george

Pouvez-vous fournir des échantillons des deux fichiers de taille réduite et quels sont les résultats attendus?
R Sahu

Envisageriez-vous d'installer MSYS dans votre Windows?
drk.com.ar

Je voudrais installer MSYS!
george

Réponses:


0

Si les chaînes sont toutes sur des lignes séparées, vous pouvez utiliser grep de MSYS ou Cygwin comme suit:

C:\> grep -v -f thousandLine.txt hundred000line.txt >ninetynine000Line.txt

le -v option inverse la correspondance de sorte que la sortie est toutes les lignes hundred000line.txt qui ne correspond à aucune ligne thousandLine.txt. Voir le manuel de grep pour plus d'informations.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.