IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Récupération de l'encodage d'un url avec Curl [PHP 5.0]


Sujet :

Langage PHP

  1. #1
    Membre régulier
    Homme Profil pro
    HobbyWeb
    Inscrit en
    Janvier 2005
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : Suisse

    Informations professionnelles :
    Activité : HobbyWeb

    Informations forums :
    Inscription : Janvier 2005
    Messages : 183
    Points : 102
    Points
    102
    Par défaut Récupération de l'encodage d'un url avec Curl
    Bonjour,

    J'essaye de crawler la page d'un site externe par son url, j'ai fait un bout de code avec curl qui me permet de récupérer le texte HTML d'une page.

    de cette sorte en partie...
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    $ch = curl_init();
    curl_setopt ($ch, CURLOPT_URL, $_url);
    curl_setopt ($ch, CURLOPT_USERAGENT, $user_agent);
    //curl_setopt ($ch, CURLOPT_COOKIEJAR, "c:\cookie.txt");
    curl_setopt ($ch, CURLOPT_HEADER, 1);
    curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt ($ch, CURLOPT_TIMEOUT, 120);
    $code = curl_exec ($ch);
    curl_close($ch);
    $this->_txt=$code;
    			//echo $this->_txt;
    Mon unique problème est la différence des Charsets/Encodage (ISO et UFT-8) que je ne sais pas comment récupérer / identifier pour me dire une chose pourtant simple... et qui me fait déchanter...

    Si le site indexé utilise un encodage UFT-8, alors indexe sa page sous ce format...
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    <?php 
     
     
    If ($charsetdusitevisite = "iso-8859-1" )
    {
    echo'
    <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">'; 
    }
     
    else {
    echo'<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">';
    } 
     
    // Mais comment récupérer cette info pour la traiter dans une condition simple ??
    ?>
    D'avance merci
    yule

  2. #2
    Modérateur
    Avatar de sabotage
    Homme Profil pro
    Inscrit en
    Juillet 2005
    Messages
    29 208
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Juillet 2005
    Messages : 29 208
    Points : 44 155
    Points
    44 155
    Par défaut
    Il existe mb_detect_encoding mais le résultat n'est pas garanti.
    Si on pouvait savoir a coup sur l'encodage d'une donnée, il n'existerait plus de problème d'encodage.

  3. #3
    Membre régulier
    Homme Profil pro
    HobbyWeb
    Inscrit en
    Janvier 2005
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : Suisse

    Informations professionnelles :
    Activité : HobbyWeb

    Informations forums :
    Inscription : Janvier 2005
    Messages : 183
    Points : 102
    Points
    102
    Par défaut
    Hello,

    Oui ça fonctionne pas mal... merci pour l'astuce !

    Par contre, j'ai pas réussi à extraire le text html d'une page distante, il existe plusieurs options mais le Curl encore une fois semble la meilleure fonction

    Connaissez-vous un bon exemple de récup d'un contenu extrait avec un nettoyage de la chaine pour enlever le code html

    D'avance merci
    Yule

  4. #4
    Modérateur
    Avatar de sabotage
    Homme Profil pro
    Inscrit en
    Juillet 2005
    Messages
    29 208
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Juillet 2005
    Messages : 29 208
    Points : 44 155
    Points
    44 155
    Par défaut
    Il existe la fonction strip_tags()

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Récupération d'url avec un login et password
    Par www.rubis dans le forum Réseau/Web
    Réponses: 3
    Dernier message: 30/11/2014, 20h38
  2. envoyer une requète de type url avec curl.
    Par rufa11 dans le forum Embarqué
    Réponses: 1
    Dernier message: 16/08/2012, 15h43
  3. [AJAX] encodage-decodage URL avec Java et Javascript
    Par alfreedd dans le forum Général JavaScript
    Réponses: 3
    Dernier message: 05/06/2007, 13h45
  4. Problème encodage-decodage URL avec Java et Javascript
    Par alfreedd dans le forum Servlets/JSP
    Réponses: 6
    Dernier message: 27/04/2007, 12h11
  5. Réponses: 11
    Dernier message: 17/08/2006, 10h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo