IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Linux Discussion :

copier automatiquement une page web en fichier texte


Sujet :

Linux

  1. #1
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut copier automatiquement une page web en fichier texte
    Bonjour à tous

    Je suis nouveau ici, nouveau dans mon école d'info et j'ai une question ( et bien d'autre sûrement dans peu de temps )

    Mais voici la première : Comment puis-je faire pour que chaque page web visitée avec firefox soit copiée dans un fichier texte. Le mieux serait de pouvoir le faire depuis le terminal ?

    En somme, il faudrait que chaque fois qu'une page web est visité, il y ait un "tout sélectionner" suivi d'un "copier" suivi d'un "coller dans un fichier texte" et ça tout seul. Je me doute bien que la page n'aura pas du tout la même tête, mais il me faut juste le texte.

    Le but étant après de mettre une liste d'URL dans la console du terminal et que toutes ces pages soient copiées dans des fichiers textes.



    Merci à tous

  2. #2
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 754
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 754
    Points : 31 097
    Points
    31 097
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par Belmondo Voir le message
    En somme, il faudrait que chaque fois qu'une page web est visité, il y ait un "tout sélectionner" suivi d'un "copier" suivi d'un "coller dans un fichier texte" et ça tout seul. Je me doute bien que la page n'aura pas du tout la même tête, mais il me faut juste le texte.
    Tu peux regarder dans les modules firefox ce qui est dispo (mais ça métonnerait que ça ait été fait) donc tu peux développer ton propre module...

    Citation Envoyé par Belmondo Voir le message
    Le but étant après de mettre une liste d'URL dans la console du terminal et que toutes ces pages soient copiées dans des fichiers textes.
    Ah ça c'est différent car si tu utilises la console tu peux très bien lancer alors autre chose que firefox. Donc tu peux développer ton propre programme (C, Perl, Python) qui ouvre une socket sur l'URL (port 80) et lit la socket pour copier les data dans un fichier

  3. #3
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    ... Normal quoi !
    je suis entré cette année dans une école d'ingénieur en 5 ans et je crois que je vais attendre quelques années encore ! Les mots de perl, C, python ne me sont pas étranges mais je n'ai pas le niveau pour construire quelque chose !! Je pensais qu'il y avait peut-être moyen de faire simple avec les fichiers cache de firefox que la console lirait (avec la commande perle peut-être) puis de copier ces fichiers dans un autre format (txt) ...

    J'allais oublié : un grand merci pour la réponse, je ne m'attendais vraiment pas a une telle rapidité même si le niveau est un peu élèvé !

  4. #4
    Expert éminent sénior Avatar de frp31
    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Juillet 2006
    Messages
    5 196
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2006
    Messages : 5 196
    Points : 12 262
    Points
    12 262
    Par défaut
    je ferai simple (probablement un peu lent :
    en deux etapes majeures :
    wget ............................htm
    suivi d'un script sed qui vires toutes les balises & entetes ou avec un perl...

    par exemple en shell

  5. #5
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 754
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 754
    Points : 31 097
    Points
    31 097
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par Belmondo Voir le message
    J'allais oublié : un grand merci pour la réponse, je ne m'attendais vraiment pas a une telle rapidité même si le niveau est un peu élèvé !
    Bah pur hasard. Je me suis connecté qq minutes après ton post. Mais examine plus en détail la réponse de frp31...

  6. #6
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    Citation Envoyé par frp31 Voir le message
    je ferai simple (probablement un peu lent :
    en deux etapes majeures :
    wget ............................htm
    suivi d'un script sed qui vires toutes les balises & entetes ou avec un perl...

    par exemple en shell
    Là je comprends un tout petit peu, j'avais déjà utilisé la commande sed pour afficher que les adresses mails contenues dans des fichiers texte. Mais je suis loin de voir comment je vais m'y prendre
    Je vais donc examiner un peu la question, à commencer par le wget


  7. #7
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 754
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 754
    Points : 31 097
    Points
    31 097
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par Belmondo Voir le message
    Là je comprends un tout petit peu, j'avais déjà utilisé la commande sed pour afficher que les adresses mails contenues dans des fichiers texte. Mais je suis loin de voir comment je vais m'y prendre
    Ben la commande "sed" se comporte exactement comme "vi". Tu peux lui faire transformer, dupliquer ou supprimer des expressions exactement comme tu le fais avec "vi"

    Exemple: affiche le HOME mais remplace chaque "/" par ":"
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    echo $HOME |sed -e "s/\//:/g"
    Exemple: affiche le PATH mais remplace chaque ":" par "-" et chaque "u" par "v" (comme chez les romains)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    echo $PATH |sed -e "s/:/-/g" -e "s/u/v/g"
    Donc pour bien y arriver, faut le faire par étapes
    1) tu récupères ta page avec wget et tu la stockes dans un fichier de travail (pour bien pouvoir l'examiner)
    2) quand tu l'examines, tu essayes de voir les opérations simples pour supprimer ce qui est en trop et tu essayes d'imaginer les ordres correspondants (tu n'as pas que sed pour t'aider, t'as aussi cut et awk) - Evidemment c'est la phase la plus dure (je me souviens qu'une fois, pour transformer une liste d'utilisateurs en fichier ldap, j'ai enchainé jusqu'à 7 commandes à suivre et j'ai fait exactement comme ci-desus => j'ai travaillé chaque commande de façon indépendante jusqu'à ce qu'elle me donne ce que j'attendais puis je passais à la suivante)
    3) en final, tu écris ton script où tu lances ton wget qui traverse ton enchainement trouvé au 2 et si ça marche t'as gagné.

  8. #8
    Expert éminent sénior Avatar de frp31
    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Juillet 2006
    Messages
    5 196
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2006
    Messages : 5 196
    Points : 12 262
    Points
    12 262
    Par défaut
    voilà la solution basique :
    expression détaillée qu'une fois comprise tu réduira bien sur à sa syntaxe normale
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    francois@3EPC:~$ cat test && sed -i '/<head>/,/<\/head>d;s/>/>\n/g;s/<.....>//g;s/<....>//g;s/<...>//g;s/<..>//g;s/<......>//g;s/<.......>//g' test && cat test
    <html><head><title>Vous Etes Perdu ?</title></head><body><h1>Perdu sur l'Internet ?</h1><h2>Pas de panique, on va vous aider</h2><strong><pre>    * <----- vous &ecirc;tes ici</pre></strong></body></html>
     
     
     
    Vous Etes Perdu ?
     
     
     
    Perdu sur l'Internet ?
     
    Pas de panique, on va vous aider
     
     
        * <----- vous &ecirc;tes ici
     
     
     
     
    francois@3EPC:~$
    ce qui converti bien le code source de http://www.perdu.com en vulgaire texte

  9. #9
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    Citation Envoyé par Sve@r Voir le message
    ...

    Donc pour bien y arriver, faut le faire par étapes
    1) tu récupères ta page avec wget et tu la stockes dans un fichier de travail (pour bien pouvoir l'examiner)
    ...
    J'ai installé wget, et j'ai commencé à regarder à quoi ça ressemble, ça parrait presque magique qu'un tel programme existe en ligne de commande

    Bref, j'en suis là : je tape ce code
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    ./wget -p http://www.google.fr/search?hl=fr&safe=off&q=cinema&btnG=Rechercher&meta=
    Le problème est le suivant : pour une raison que je saisi mal, wget est redirigé vers la page d'accueil de google, ce qui se traduit je pense par
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    Location: http://www.google.fr/webhp?source=ig [following]
    --21:21:00--  http://www.google.fr/webhp?source=ig
               => `www.google.fr/webhp?source=ig'
    Connecting to www.google.fr[209.85.135.147]:80... connected.
    HTTP request sent, awaiting response... 200 OK
    Comment puis-je expliquer à wget qu'il doit se cantonner à la page qui est sous le lien que je lui indique ? J'ai cherche dans "--help" (c'est d'ailleurs comme ça que j'ai trouvé l'option "-p") mais je ne vois rien de la sorte

    Citation Envoyé par frp31 Voir le message
    voilà la solution basique :
    expression détaillée qu'une fois comprise tu réduira bien sur à sa syntaxe normale
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    francois@3EPC:~$ cat test && sed -i '/<head>/,/<\/head>d;s/>/>\n/g;s/<.....>//g;s/<....>//g;s/<...>//g;s/<..>//g;s/<......>//g;s/<.......>//g' test && cat test
    <html><head><title>Vous Etes Perdu ?</title></head><body>
    ...
    francois@3EPC:~$
    ce qui converti bien le code source de http://www.perdu.com en vulgaire texte
    Ce sera pour la suite, merci

    Pour la petite histoire je connais bien cette page, elle m'a beaucoup amusé le jour où je suis tombé dessus pour la première fois.

  10. #10
    Membre du Club
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    34
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 34
    Points : 41
    Points
    41
    Par défaut
    Bonjour

    Installer wget ? je pensais qu'il était disponible par défaut dans toute distribution linux

    Sinon, pour récupérer une page html en texte dans un fichier, je ne te conseille pas de passer par sed. Il y a plus simple :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    w3m -dump 'http://www.perdu.com/' > fichier.txt
    On peut faire la même chose avec lynx
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    lynx -dump 'http://www.perdu.com/' > fichier.txt
    ou encore wget plus un programme pour convertir le html en txt:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    wget -qO- 'http://www.perdu.com/' | html2text > fichier.txt
    ma préférence va à w3m

    Par rapport au dernier message, il faut protéger l'url par des guillemets.
    Par ailleurs google cherche à éviter les scripts et se base notamment sur l'user-agent pour rejeter wget et d'autres. On est obligé de faire passer wget pour autre chose, par exemple comme cela : wget -U ""
    Mais de toute façon Google détecte très vite les requêtes automatisées et dans ce cas tu auras bientôt droit à un captcha pour vérifier que tu n'es pas un robot...

  11. #11
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    Citation Envoyé par Alain.g Voir le message
    Bonjour

    Installer wget ? je pensais qu'il était disponible par défaut dans toute distribution linux

    [...]
    En fait, à l'école je suis sous linux, mais chez moi je suis sous Mac. Mais comme OS X est entièrement basé sur Unix, ça passe inaperçu au niveau du terminal. Par contre certaines applications ne sont pas installées.

    J'ai essayé
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    wget -U -qO- 'http://www.perdu.com/' | html2text > fichier.txt
    ça me fais un fichier "fichier.txt" vide et un autre fichier avec la page téléchargée directement lisible par un navigateur, mais pas du tout sous forme de texte puisqu'il y a toutes les balises.
    Est-ce que w3m enlève toutes les balises html ou est-ce que de toutes façon il y aura l'étape 2) de Sve@r à effectuer ?

    Merci à tous, je continue de chercher moi aussi

  12. #12
    Membre du Club
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    34
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 34
    Points : 41
    Points
    41
    Par défaut
    oui "w3m -dump" enlève le balisage html, tout comme "lynx -dump" ou html2text...

    par ailleurs ça serait wget -U "" -qO- et non wget -U -qO-
    Il ne faut surtout pas oublier les guillemets vides ! ou alors mettre quelque chose, du style wget -U "Mozilla/5.0"

    Par contre si w3m, lynx ou html2text ne sont pas installés, ça ne sert à rien d'essayer...

  13. #13
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    Citation Envoyé par Alain.g Voir le message
    Par contre si w3m, lynx ou html2text ne sont pas installés, ça ne sert à rien d'essayer...
    C'est donc ça Je ne comprenais ce que ce signifiait html2text. Une option de wget qui n'apparaitrais pas dans l'aide, .
    Mais c'est en fait un autre programme. Je suppose donc que le | signifie qu'il faut faire appel à un autre programme ?

    J'aurais peut-être la réponse à toutes ces questions dans 6 ou 10 mois quand le chapitre sera fini, mais j'ai envie de découvrir autrement


    Merci

  14. #14
    Expert éminent sénior Avatar de frp31
    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Juillet 2006
    Messages
    5 196
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juillet 2006
    Messages : 5 196
    Points : 12 262
    Points
    12 262
    Par défaut
    a oui j'avais même pas pensé à ça....

  15. #15
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 754
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 754
    Points : 31 097
    Points
    31 097
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par Belmondo Voir le message
    Je suppose donc que le | signifie qu'il faut faire appel à un autre programme ?
    Il s'agit ici du principe de base à la prog Unix. Chaque programme, s'il a une info à récupérer, la récupère au clavier. Et s'il a une info à écrire, il l'écrit à l'écran
    Exemple: tu tapes ça en direct:
    Résultat: 1 1 5

    La commande "wc" (Word Count) te compte le nb de lignes, de mots et de caractères de ce qui lui est entré au clavier et affiche son résultat à l'écran

    Ensuite, grace au pipe (|), tu peux renvoyer le résultat de la commande 1 (l'écran) dans l'entrée de la commande 2 (le clavier). A ce moment là, ce que la commande 1 affiche ben ce n'est plus affiché mais ça devient la data qui sera traitée par la commande 2. Et le résultat de la commande 2 est bien entendu affiché à l'écran (sauf si on le redirige de nouveau via pipe sur une commande 3 etc etc)

    Exemple: Compter le nb de fichiers présents dans ton répertoire
    Tout ce que "ls" affiche (la liste de fichiers) sera traité par wc à qui on a demandé de ne compter que les lignes (option -l). Comme "ls" affiche un fichier par ligne, si tu comptes les lignes tu as le nb de fichiers.

    Une fois le principe bien compris, tu peux quasiment tout construire. Chaque programme Unix ne fait qu'une chose mais en les emboitants comme des lego, tu arrives à créer des outils puissants

    Exemple: afficher tous les fichiers avec leurs droits, mais sans afficher le droit "x", le tout converti en majuscule et trié en ordre inverse (exemple vraiment inutile mais j'essaye de trouver un truc bien compliqué pour avoir beaucoup de commandes)
    Donc pour afficher les fichiers ce sera "ls -l"
    Pour masquer le droit "x", on pourra utiliser "sed" en lui demandant de remplacer chaque "x" par "-"
    Pour la conversion en majuscules, "tr" le fait très bien
    Pour le tri, la commande "sort" est toute indiquée

    Ca donnera
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    ls -l |sed -e "s/x/-/g" |tr '[:lower:]' '[:upper:]' |sort -r
    Ensuite, à toi de jouer. Dès que t'as un gros algo de traitement à effectuer, tu essayes (avec tes connaissances des commandes dispo), de trouver comment tu peux maniper ta data input pour générer ta data output au format voulu. Et si, au pire, il te manque une commande, ben rien ne t'empêche de la créer toi-même en C (ou autre). Tu lui fais juste lire ses infos au clavier (stdin) et écrire ses résultats à l'écran (stdout) et ensuite tu pourras l'imbriquer au milieu des autres.

  16. #16
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    Merci pour la petite explication, je vais essayer pas l'oublier trop vite

    Me voilà en fait à l'école, et bonne nouvelle wget est installé, mais ni w3m ni html2text.

    J'ai fais un petit test sur le site de html2text avec une page de google et apparemment google n'est pas content

    Je me suis donc dis : pas la peine de s'embêter, passons à w3m. J'ai donc essayé d'installer w3m, sauf que lorsque je lance ./configure J'obtiens rapidement le message

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    checking GC library exists... yes
    checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking GC header location... /usr /usr/local /user/malleta
    checking /usr/include... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /usr/include/gc... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /usr/local/include... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /usr/local/include/gc... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /user/malleta/include... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /user/malleta/include/gc... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    configure: error: gc.h not found
    N'étant pas complètement idiot je me suis dis "OK, il cherche le fichier gc.h" J'ai donc téléchargé la dernière version (7.0) de gc et j'ai déplacé le fichier gc.h situé dans le dossier include vers le dossier /user/malleta/include. En somme j'ai créé un dossier include à la racine de mon compte et j'y ai mis le fichier gc.h (J'ai fais un petit coup de chmod 777 histoire de pas avoir de problème de ce côté) et j'ai relancé ./configure en me disant, quand il arrivera à la ligne
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    checking /user/malleta/include/gc... checking gc.h usability... no
    il trouvera le fichier. Mais non

    1) Même en agrandissant la fenêtre de la console, il me laisse des ... ce qui fait que ça se trouve il cherche dans include/gc-7.0/gc.h mais que moi je crois qu'il cherche include/gc.h

    2) Je vois pas ...

    Je présice que je suis à l'école (cette fois ci) et donc que je ne peux rien copier sur la machine, je dois tout copier sur mon compte (malleta)

    Merci de votre patience

    Edit : J'ai aussi essayé de créer un dossier w3m sur mon bureau, dans lequel j'ai mis le dossier include, dans lequel j'ai mis le fichier gc.h, puis j'ai lancé
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    ./configure --prefix=/nfs/user/eleve/i1/malleta/Desktop/w3m
    Mais c'est pareil

  17. #17
    Expert éminent sénior
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 754
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 754
    Points : 31 097
    Points
    31 097
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par Belmondo Voir le message
    Merci pour la petite explication, je vais essayer pas l'oublier trop vite

    Me voilà en fait à l'école, et bonne nouvelle wget est installé, mais ni w3m ni html2text.

    J'ai fais un petit test sur le site de html2text avec une page de google et apparemment google n'est pas content

    Je me suis donc dis : pas la peine de s'embêter, passons à w3m. J'ai donc essayé d'installer w3m, sauf que lorsque je lance ./configure J'obtiens rapidement le message

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    checking GC library exists... yes
    checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking GC header location... /usr /usr/local /user/malleta
    checking /usr/include... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /usr/include/gc... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /usr/local/include... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /usr/local/include/gc... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /user/malleta/include... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    checking /user/malleta/include/gc... checking gc.h usability... no
    checking gc.h presence... no
    checking for gc.h... no
    configure: error: gc.h not found
    N'étant pas complètement idiot je me suis dis "OK, il cherche le fichier gc.h" J'ai donc téléchargé la dernière version (7.0) de gc et j'ai déplacé le fichier gc.h situé dans le dossier include vers le dossier /user/malleta/include. En somme j'ai créé un dossier include à la racine de mon compte et j'y ai mis le fichier gc.h (J'ai fais un petit coup de chmod 777 histoire de pas avoir de problème de ce côté) et j'ai relancé ./configure en me disant, quand il arrivera à la ligne
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    checking /user/malleta/include/gc... checking gc.h usability... no
    il trouvera le fichier. Mais non

    1) Même en agrandissant la fenêtre de la console, il me laisse des ... ce qui fait que ça se trouve il cherche dans include/gc-7.0/gc.h mais que moi je crois qu'il cherche include/gc.h

    2) Je vois pas ...

    Je présice que je suis à l'école (cette fois ci) et donc que je ne peux rien copier sur la machine, je dois tout copier sur mon compte (malleta)

    Merci de votre patience

    Edit : J'ai aussi essayé de créer un dossier w3m sur mon bureau, dans lequel j'ai mis le dossier include, dans lequel j'ai mis le fichier gc.h, puis j'ai lancé
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    ./configure --prefix=/nfs/user/eleve/i1/malleta/Desktop/w3m
    Mais c'est pareil
    Bon, donc Maletta c'est ton nom

    En effet, il manque "gc.h". Mais le problème d'un ".h" c'est qu'il ne fait pas partie de l'outil de base mais de l'outil de développement.

    Bon, je vais essayer de résumer
    Si t'as envie d'utiliser gimp, t'installes "gimp<plein de trucs>.rpm". Ca t'installe grosso-modo l'exécutable, la config, le man.
    Si maintenant t'as envie de créer toi-même un logiciel qui utilise des outils de gimp, alors faut que t'installes "gimp-devel<plein de trucs>.rpm". Ca t'installera alors les headers contenant les déclaration des outils que tu peux utiliser (le suffixe "-devel" signifiant "développement"). Donc pour gc.h, il te faut pas "gc" mais "gc-devel". Va voir ce lien http://fr2.rpmfind.net//linux/RPM/fe...fc10.i386.html et descend jusqu'à ce que tu voies "FILES" en gras et descend juste en dessous...

    Voilà. Faut maintenant que t'apprennes à utiliser les rpm car c'est aussi un très gros outils qui sert tout le temps pour tout ce qui est installation/désinstallation. Le problème, c'est que t'es pas sur ta machine donc tu peux pas installer gc-devel comme ça et ta tentative (certes ingénieuse) de descendre un répertoire chez-toi puis tenter de t'en servir comme support ne peut pas marcher parce que cela entrainerait une faille de sécurité pour le poste => si l'admin du poste n'a pas installé cet outil de développement, ça peut être aussi parce qu'il ne veut pas qu'on développe donc ça serait trop con (en terme de sécurité) si un simple user pouvait passer outre la règle de l'admin (ça mènerait à une situation comparable à zindow, avec virus et tout et tout).

    Donc faut que t'ailles voir l'admin et que tu lui expliques que t'as besoin de w3m. Et s'il est pas trop tarte (et que c'est autorisé par son règlement), il l'installera lui-même (avec toutes les dépendances qui vont bien)...

  18. #18
    Membre du Club
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    34
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 34
    Points : 41
    Points
    41
    Par défaut
    Citation Envoyé par Belmondo Voir le message
    mais ni w3m ni html2text
    Je ne l'avais pas précisé, mais entre les trois, il y a plus de chance que lynx soit installé. C'est un programme très ancien et bien connu.

  19. #19
    Futur Membre du Club
    Inscrit en
    Septembre 2008
    Messages
    29
    Détails du profil
    Informations forums :
    Inscription : Septembre 2008
    Messages : 29
    Points : 9
    Points
    9
    Par défaut
    Citation Envoyé par Alain.g Voir le message
    Je ne l'avais pas précisé, mais entre les trois, il y a plus de chance que lynx soit installé. C'est un programme très ancien et bien connu.
    Non, il n'est pas installé lui non plus Je crois que je vais donc installer linux sur ma machine perso le week-end prochain au moins ce sera fait !
    Surtout qu'à l'école j'ai un autre problème (surement à cause des anti-virus et autre bêtises) wget s'arrête et ne fait plus rien quand il commence à vouloir télécharger
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    wget -p http://www.google.fr
    --12:55:37--  http://www.google.fr/
               => `www.google.fr/index.html'
    Resolving www.google.fr... 209.85.135.147, 209.85.135.104, 209.85.135.99, ...
    Connecting to www.google.fr[209.85.135.147]:80...
    Conclusion : à la semaine prochaine (j'ai pas les CD et pas de graveur sous la main)

    Merci

  20. #20
    Membre du Club
    Profil pro
    Inscrit en
    Mai 2008
    Messages
    34
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2008
    Messages : 34
    Points : 41
    Points
    41
    Par défaut
    Ceci dit il est tout à fait possible d'installer lynx sous mac, de même que html2text (w3m je n'ai pas vérifié).

    Sinon avec uniquement wget sous le main, on peut passer un convertisseur en ligne : http://cgi.w3.org/cgi-bin/html2txt
    Exemple :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    wget -O perdu.txt 'http://cgi.w3.org/cgi-bin/html2txt?url=http://www.perdu.com'
    Mais bon...

    Pour mac :
    http://www.apple.com/downloads/macos...ebbrowser.html
    http://html2text.darwinports.com/

Discussions similaires

  1. [XL-2010] Faire une recherche sur une page web d'élément texte sans passer par le code source
    Par Phifou dans le forum Macros et VBA Excel
    Réponses: 12
    Dernier message: 18/09/2014, 12h19
  2. Réponses: 1
    Dernier message: 17/01/2011, 13h37
  3. Editer une page dans un fichier texte
    Par SINASOFT dans le forum AIX
    Réponses: 6
    Dernier message: 14/01/2008, 12h01
  4. actualiser automatiquement une page web.
    Par MAJIK_ENIS dans le forum Servlets/JSP
    Réponses: 6
    Dernier message: 24/05/2006, 18h55
  5. ouvrir une page Web en mode texte
    Par Halleck dans le forum Windows
    Réponses: 7
    Dernier message: 03/03/2004, 16h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo