Bonjour!
Cela fait un moment que je cherche, sur le forum, dans les faqs et sur d'autres sites, et c'est bredouille que je poste ce nouveau sujet...qui doit avoir une réponse toute simple, mais qui reste introuvable!
Voilà mon problème:
- après avoir constituer un corpus de plusieurs milliers de fichiers.txt, avant de lancer des traitements de nettoyage (script déjà prêt), je souhaiterais supprimer les lignes doublons à l'intérieurs de ces fichiers.
Précisions: je veux faire ça pour supprimer les lignes redondante dûes au formatage de PDF en texte brut (du genre le titre en haut de chaque page, etc...)
Précision 2 : je suis sous Windows XP et pas de machine sous Linux dans les parages
J'ai trouvé ici un uniligne de toute beauté que voici:
perl -ne "print if ! $lignes{$_}++" mon_fichier.txt > nouveau_fichier.txt
En faisant:
perl -i -ne "print if ! $lignes{$_}++" mon_fichier.txt
j'écris directement dans le fichier traité...
Or, moi, j'ai 3000 textes à traiter, et :
perl -i -ne "print if ! $lignes{$_}++" *.txt
ne semble pas marcher sous Windows.
Ma question est donc très simple:
Comment faire pour lancer un one-liner sur un ensemble de fichiers, ou à défaut un répértoire, sous windows??
Merci!!
Partager