J'ai mes références sous forme de fichier texte avec une longue liste d'entrées et chacune a deux (ou plus) champs.
La première colonne est l'URL de la référence; la deuxième colonne est le titre qui peut varier un peu selon la façon dont la saisie a été effectuée. Idem pour le troisième champ qui peut ou non être présent.
Je veux identifier mais pas supprimer les entrées dont le premier champ (URL de référence) est identique. Je sais sort -k1,1 -u
mais cela supprimera automatiquement (de manière non interactive) tout sauf le premier hit. Existe-t-il un moyen de me le faire savoir afin que je puisse choisir lequel conserver?
Dans l'extrait ci-dessous de trois lignes qui ont le même premier champ ( http://unix.stackexchange.com/questions/49569/
), je voudrais garder la ligne 2 car elle a des balises supplémentaires (tri, CLI) et supprimer les lignes # 1 et # 3:
http://unix.stackexchange.com/questions/49569/ unique-lines-based-on-the-first-field
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field sort, CLI
http://unix.stackexchange.com/questions/49569/ Unique lines based on the first field
Existe-t-il un programme pour aider à identifier ces "doublons"? Ensuite, je peux nettoyer manuellement en supprimant personnellement les lignes # 1 et # 3?