Réponses:
Avec Cygwin (ou l'accès à une machine Linux), vous pourriez
antiword file.doc | grep "my phrase"
ou
catdoc file.doc | grep "my phrase"
Il existe de nombreux convertisseurs de format de fichier de ligne de commande pour grep de la même manière.
La solution purement dans Word pourrait être Ctrl + F (Rechercher), puis Rechercher tout - cependant, je ne sais pas si toutes les versions de MS Word ont le bouton Rechercher tout .
catdoc
segfaults sur chaque fichier .doc
/ .docx
je lui donne, et antiword
me dit juste que mon document "n'est pas un document Word". Connaissez-vous d'autres options?
docx2txt
existe dans les référentiels Debian - pourrait fonctionner. J'examinerais également l'utilitaire de conversion de format de ligne de commande OpenOffice / LibreOffice (unoconv), qui pourrait être utilisé dans le même but.
Que signifie «ligne» dans un contexte Word? La ligne affichée, qui change si vous faites quoi que ce soit au formatage de la page? Le paragraphe? Autre chose?
Vous pouvez faire beaucoup de choses avec les fonctions de recherche et de remplacement de Word, y compris la modification de la mise en forme et d'autres choses non évidentes, mais toutes n'agiront que sur le texte de recherche lui-même, pas sur le texte environnant.
Il existe un support pour les documents MS - Word, PowerPoint, Excel - dans CRGREP que j'ai développé comme un outil open source gratuit. Il accueille également d'autres éléments difficiles à rechercher, tels que les tables de base de données, les images, l'audio, les archives, les PDF et leurs combinaisons. S'amuser.
PowerGREP fera exactement cela pour vous, et rapidement - mais pas gratuitement. Cela vaut chaque centime, à mon avis. De plus, il y a un essai gratuit de 30 jours.
Pas assez de représentants pour commenter, mais je peux voir ce problème doc vs docx discuté, donc toute personne poursuivant le fil (comme moi) peut trouver cela utile.
Vous n'avez pas besoin d'un outil spécial pour les fichiers docx. docx sont des fichiers XML zippés.
Pour extraire et supprimer le XML, essayez quelque chose basé sur
unzip -p "*.docx" word/document.xml | sed -e 's/<[^>]\{1,\}>//g; s/[^[:print:]]\{1,\}//g'
à partir de la ligne de commande fu
Solution rapide, gratuite, open source et multiplateforme: https://github.com/phiresky/ripgrep-all