Bonjour,
Je dois remplacer une expression dans tous les fichiers HTML d'un site.
Je n'ai donc pas besoin de rapatrier tous les fichiers, notemment les images (il y en a + de 6000).
Comment faire avec wget ?
Merci d'avance.
Bonjour,
Je dois remplacer une expression dans tous les fichiers HTML d'un site.
Je n'ai donc pas besoin de rapatrier tous les fichiers, notemment les images (il y en a + de 6000).
Comment faire avec wget ?
Merci d'avance.
salut,
man wget nous dit :
Recursive Accept/Reject Options
-A acclist --accept acclist
-R rejlist --reject rejlist
Specify comma-separated lists of file name suffixes or patterns to accept or reject (@pxref{Types of Files} for more details).
Ok, merci. J'ai eu un peu de mal à mettre en oeuvre la syntaxe, mais j'ai fini par trouver.Envoyé par narmataru
Autre question sur le même sujet : maintenant que je parviens à télécharger les fichiers html seuls, wget ne descend plus recursivement dans les repertoire; autrement dit, je n'obtiens que les fichiers html de la racine du site. Comment faire pour obtenir toute l'arborescence avec seulement les fichiers HTML ?
ma commande :
Merci de votre intérêt.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 wget http://www.monsite.com/ -r -l 0 -N -A html,htm
bonjour,
Si tu ne vois pas pourquoi ta commande ne téléchargement pas récursivement c'est qu'il y a un problème ! Sais-tu à quoi correspondent les options que tu passes à wget ?
Par exemple :
Je t'encourage à lire le manuel de wget !Envoyé par man wget
J'ai commencé à la lire puis, je suis tombé sur une traduction en Français de la doc, qui indiquait "-l 0" égal à "-l inf" => descend récursivement dans tous les sous-rep.Envoyé par narmataru
Et oui, mauvaise traduction de l'auteur. Je vais lui envoyer un mail en le remerciant pour son travail de traduction et en lui faisant remarquer amicalement qu'il y a cependant une erreur.
J'ai essayé la commande suivante, mais cela ne fonctionne toujours pas :
Je ne comprends pas où ça foire...
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 wget http://www.monsite.com/ -r -l 50 -A html,htm
Merci à toi.
ha ben peut être pas Si ça se trouve c'est moi qui me suis trompé. Ca parait bien dans la logique des commande de mettre 0 pour l'infini.Envoyé par anti-conformiste
Excsue-moi je me suis précipité
Par contre, lorsque tu télécharge les pages html, wget va suivre les liens et non pas l'arborescence. Si tu as un accès ftp essaye plutot ça :
wget ftp://login:passwd@serveurftp.toto.fr/monsite/ -c -r -l 0 -A html,htm
C'est pas grave, y'a pas de mal, c'est déjà très gentil de m'aider !!!Envoyé par narmataru
Je n'ai pas d'accès ftp
J'ai enlevé l'option -l car par défaut, le niveau récursif est à 5.
Si je précise que je ne souhaite que les fichiers html (-A html,htm), il ne descend par récursivement. Sans l'option -A, il me télécharge bien tous le site avec les sou-rep (enfin, il commence, il y a 347Mo )
Bref comment cela se fait-il
Essaye peut être en disant de tout télécharger sauf les images
wget http://www.monsite.com/ -r -c -R *.gif,*.png,*.jpg,*.swf
Envoyé par narmataru
C'est justement ce que je testais à part que j'ai oublié de lui préciser les png; le résultat est curieux : il me télécharge toute la racine et un sous répertoire avec un fichier png. Mais pourquoi pas les autres fichiers (html par exemple) et pourquoi uniquement ce sous-dossier
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager