J'ai deux corpus parallèles alignés sur des phrases (fichiers texte) avec environ 50 millions de mots. (du corpus Europarl -> traduction parallèle de documents juridiques). Je voudrais maintenant mélanger les lignes des deux fichiers, mais les deux de la même manière. Je voulais aborder cela en utilisant gshuf (je suis sur un Mac) en utilisant une source aléatoire unique.
gshuf --random-source /path/to/some/random/data file1
gshuf --random-source /path/to/some/random/data file2
Mais j'ai reçu le message d'erreur end of file
, car apparemment la graine aléatoire doit contenir tous les mots que contient le fichier à trier. Est-ce vrai? Si oui, comment créer une graine aléatoire adaptée à mes besoins? Si non, de quelle autre manière pourrais-je randomiser les fichiers en parallèle? J'ai pensé à les coller ensemble, à les randomiser puis à les séparer à nouveau. Cependant, cela semble moche car je devrais d'abord trouver un délimiteur qui ne se produit pas dans les fichiers.
random sources
. En ce qui concernepaste
, vous pouvez utiliser comme délimiteur un caractère de faible ascii qui ne se produira probablement pas dans vos fichiers (comme\x02
,\x03
...).