IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

Récuperer le contenu de la balise <title> d'une page distante


Sujet :

Langage PHP

  1. #1
    Membre averti Avatar de demenvil
    Homme Profil pro
    Analyste développeur
    Inscrit en
    Avril 2009
    Messages
    195
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Analyste développeur
    Secteur : Finance

    Informations forums :
    Inscription : Avril 2009
    Messages : 195
    Points : 389
    Points
    389
    Par défaut Récuperer le contenu de la balise <title> d'une page distante
    Bonsoir,
    Dans le but d'un petit exercice je souhaiterai récupérer le contenu de la balise d'un site distant.

    Auriez vous une petite piste sur la ou les fonction à utilisé pour faire cela.

    J'ai déjà trouvé pour récupérer les tags mais rien pour cette balise..
    Merci à vous !

  2. #2
    Modérateur
    Avatar de sabotage
    Homme Profil pro
    Inscrit en
    Juillet 2005
    Messages
    29 208
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Juillet 2005
    Messages : 29 208
    Points : 44 155
    Points
    44 155

  3. #3
    Expert éminent
    Avatar de Benjamin Delespierre
    Profil pro
    Développeur Web
    Inscrit en
    Février 2010
    Messages
    3 929
    Détails du profil
    Informations personnelles :
    Âge : 36
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Février 2010
    Messages : 3 929
    Points : 7 762
    Points
    7 762
    Par défaut
    Hello

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    $xml = file_get_contents("http://www.google.fr/");
    if (preg_match("#<title>(?<title>[[:alnum:]]+)</title>#", $xml, $matches))
      echo $matches['title'];
    else
      echo "No title found";
    On fait difficilement plus simple.

  4. #4
    Membre averti Avatar de demenvil
    Homme Profil pro
    Analyste développeur
    Inscrit en
    Avril 2009
    Messages
    195
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Analyste développeur
    Secteur : Finance

    Informations forums :
    Inscription : Avril 2009
    Messages : 195
    Points : 389
    Points
    389
    Par défaut
    Merci pour vos réponses
    @sabotage je vais aller voir tes deux liens

    @Benjamin Delespierre j'ai bien essayé ton code mais j'ai tester avec 3 site il ne me trouve jamais le titre
    Une idée du problème ?

  5. #5
    Membre averti Avatar de demenvil
    Homme Profil pro
    Analyste développeur
    Inscrit en
    Avril 2009
    Messages
    195
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Analyste développeur
    Secteur : Finance

    Informations forums :
    Inscription : Avril 2009
    Messages : 195
    Points : 389
    Points
    389
    Par défaut
    J'ai trouvé ma solution ! Avec quelques modif
    Merci à vous.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
     
    <?phpfunction get_title($lien){     
    // On récupère le code HTML de la page     $html=file_get_contents($lien);   
     // On extrait le contenu compris entre <title> et </title>    
    eregi('<title>(.*)</title>', $html, $regs);     
    // On retourne le résultat obtenu     
    return $regs[1];}$titre = get_title("url du site ici ");
    echo $titre;?>

  6. #6
    Expert éminent
    Avatar de Benjamin Delespierre
    Profil pro
    Développeur Web
    Inscrit en
    Février 2010
    Messages
    3 929
    Détails du profil
    Informations personnelles :
    Âge : 36
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Février 2010
    Messages : 3 929
    Points : 7 762
    Points
    7 762
    Par défaut
    eregi est deprecated.

    http://php.net/manual/fr/function.eregi.php

    Quand tu as essayé mon code, tu as bien spécifié "http://xxx" ? Si tu ne le mets pas ça ne peut pas marcher car PHP ne reconnaitra pas le header à utiliser et croira que tu cherche à charger le contenu du fichier xxx (comportement par défaut de file_get_contenst).

  7. #7
    Membre averti Avatar de demenvil
    Homme Profil pro
    Analyste développeur
    Inscrit en
    Avril 2009
    Messages
    195
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Analyste développeur
    Secteur : Finance

    Informations forums :
    Inscription : Avril 2009
    Messages : 195
    Points : 389
    Points
    389
    Par défaut
    Arf je ne s'avait pas qu'elle était obsolète... :/
    Oui pour ton code j'ai bien mis ce qu'il falait Mais ça ne fonctionné pas..

  8. #8
    Expert éminent
    Avatar de Benjamin Delespierre
    Profil pro
    Développeur Web
    Inscrit en
    Février 2010
    Messages
    3 929
    Détails du profil
    Informations personnelles :
    Âge : 36
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Février 2010
    Messages : 3 929
    Points : 7 762
    Points
    7 762
    Par défaut
    C'est louche, en local ici ça marchait... Bref, essaie de changer la regexp

  9. #9
    Expert éminent sénior

    Profil pro
    Inscrit en
    Septembre 2010
    Messages
    7 920
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2010
    Messages : 7 920
    Points : 10 726
    Points
    10 726
    Par défaut
    il faut utiliser les outils adapter, donc DOMDocument comme le dis sabotage, faut vraiment perde cette manie de faire des regex pour tout et n'importe quoi

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    $url = 'http://www.google.fr';
     
    libxml_use_internal_errors(true);
     
    $doc = new DOMDocument();
    $doc->loadHTMLFile($url);
     
    libxml_clear_errors();
     
    $title = $doc->getElementsByTagName('title')->item(0);
     
    echo $title->nodeValue;

  10. #10
    Expert éminent
    Avatar de Benjamin Delespierre
    Profil pro
    Développeur Web
    Inscrit en
    Février 2010
    Messages
    3 929
    Détails du profil
    Informations personnelles :
    Âge : 36
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Février 2010
    Messages : 3 929
    Points : 7 762
    Points
    7 762
    Par défaut
    C'est vrais Stealth mais à dire à tous les gens qui passent sur le forum de se mettre à DOM et XQuery tu vas leur faire peur - surtout quand leur question se pose pas vraiement dans une démarche industrielle de qualité pour ainsi dire

  11. #11
    Expert éminent sénior

    Profil pro
    Inscrit en
    Septembre 2010
    Messages
    7 920
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2010
    Messages : 7 920
    Points : 10 726
    Points
    10 726
    Par défaut
    Citation Envoyé par Benjamin Delespierre Voir le message
    C'est vrais Stealth mais à dire à tous les gens qui passent sur le forum de se mettre à DOM et XQuery tu vas leur faire peur - surtout quand leur question se pose pas vraiement dans une démarche industrielle de qualité pour ainsi dire
    y'a pas de xpath la, et c'est plus simple pour n'importe quelle debutant de comprendre getElementsByTagName('title') que les regex


  12. #12
    Expert éminent
    Avatar de Benjamin Delespierre
    Profil pro
    Développeur Web
    Inscrit en
    Février 2010
    Messages
    3 929
    Détails du profil
    Informations personnelles :
    Âge : 36
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Février 2010
    Messages : 3 929
    Points : 7 762
    Points
    7 762
    Par défaut
    C'est vrai que là c'était simple. Mais quand on doit utiliser les XPath ça se corse.
    En revanche je suis 100% d'accord avec toi: il faut utiliser DOMDocument pour parser du X(HT)ML. Je suis juste partisant du KISS.

  13. #13
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2010
    Messages
    47
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2010
    Messages : 47
    Points : 21
    Points
    21
    Par défaut
    Bonjour j'ai un peu la même problématique cependant je dois récupérer des infos qui sont dans des balises qui ne sont pas unique et vraiment très précise auriez vous quelques conseils?

    J'aimerais pouvoir récupérer la query popularity le qci et les sites qui recoivent le plus de traffic, si vous auriez quelques pistes ce serait nickel


    http://www.alexa.com/search?q=meuble...ineadesign.com

    cordialement,
    lomi

    ps: à quoi sers le "->item(0);"

    j'ai réfléchis et en fait la solution qui était déjà proposée me paraît adaptée je l'ai un peu découpé a la tronçonneuse par contre car ca fonctionne pas pour moi

    un var_dump($title) a la fin du code suivant me retourne
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    object(DOMNodeList)#29 (0) { }
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    $url = 'http://www.alexa.com/search?q=canape+pas+cher&r=home_home&p=bigtop';
     
    libxml_use_internal_errors(true);
     
    $doc = new DOMDocument();
    $doc->loadHTMLFile($url);
     
    libxml_clear_errors();
     
    $title = $doc->getElementsByTagName('qindex');

  14. #14
    Expert éminent sénior

    Profil pro
    Inscrit en
    Septembre 2010
    Messages
    7 920
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2010
    Messages : 7 920
    Points : 10 726
    Points
    10 726
    Par défaut
    Citation Envoyé par Lomithrani Voir le message
    Bonjour j'ai un peu la même problématique cependant je dois récupérer des infos qui sont dans des balises qui ne sont pas unique et vraiment très précise auriez vous quelques conseils?

    J'aimerais pouvoir récupérer la query popularity le qci et les sites qui recoivent le plus de traffic, si vous auriez quelques pistes ce serait nickel


    http://www.alexa.com/search?q=meuble...ineadesign.com

    cordialement,
    lomi
    le site propose une API tu dois donc l'utiliser

  15. #15
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2010
    Messages
    47
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2010
    Messages : 47
    Points : 21
    Points
    21
    Par défaut
    merci de ta réponse je vais étudié ca, j'ai édité mon message cependant pendant que tu me répondais si tu peux y jeter un oeil

  16. #16
    Expert éminent sénior

    Profil pro
    Inscrit en
    Septembre 2010
    Messages
    7 920
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2010
    Messages : 7 920
    Points : 10 726
    Points
    10 726
    Par défaut
    qindex n'est pas un tag mais une classe, donc getElementsByTagName n'est pas adapté, tu doit passer par xpath puisqu'il n'y pas de getElementsByClassName dans l'api de PHP

  17. #17
    Membre à l'essai
    Profil pro
    Inscrit en
    Juillet 2010
    Messages
    47
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2010
    Messages : 47
    Points : 21
    Points
    21
    Par défaut
    Citation Envoyé par stealth35 Voir le message
    qindex n'est pas un tag mais une classe, donc getElementsByTagName n'est pas adapté, tu doit passer par xpath puisqu'il n'y pas de getElementsByClassName dans l'api de PHP
    Aîe , je ne trouve pas l'API (mais bon je vais continuer de chercher) et je vais devoir apprendre ces fameux xpath . Merci encore et à bientôt :/ !

  18. #18
    Expert éminent sénior

    Profil pro
    Inscrit en
    Septembre 2010
    Messages
    7 920
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2010
    Messages : 7 920
    Points : 10 726
    Points
    10 726
    Par défaut
    Citation Envoyé par Lomithrani Voir le message
    Aîe , je ne trouve pas l'API (mais bon je vais continuer de chercher) et je vais devoir apprendre ces fameux xpath . Merci encore et à bientôt :/ !
    http://fr.php.net/manual/fr/book.dom.php

  19. #19
    Expert éminent sénior

    Homme Profil pro
    Développeur Web
    Inscrit en
    Septembre 2010
    Messages
    5 389
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Puy de Dôme (Auvergne)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Septembre 2010
    Messages : 5 389
    Points : 10 422
    Points
    10 422
    Par défaut
    Citation Envoyé par Lomithrani Voir le message
    Aîe , je ne trouve pas l'API (mais bon je vais continuer de chercher) et je vais devoir apprendre ces fameux xpath . Merci encore et à bientôt :/ !
    Remarques que tu peux le faire aussi sans xpath tout en utilisant DomDocument
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    <?php
    header('Content-type: text/html; charset=UTF-8');
     
    $page_cible = 'http://www.alexa.com/search?q=meuble+pas+cher&p=gkey&r=site_siteinfo&s=usineadesign.com';
     
     
    $tab = array();
     
    $dom = new DOMDocument;// Crée un nouvel objet DOMDocument
     
    if(@$dom->loadHTMLFile($page_cible))// Charge le document html
    	{
     
    		if ($domp = $dom->getElementsByTagName('p'))//recherche les balises p
     
    		foreach($domp as $p) //liste les balises p
    		{
    			$attribut = $p->hasAttributes() ? $p->getAttribute('class') : null;//cherche les attributs class
     
    			if ($attribut == 'qindex')// recherche sur la class cible 'qindex'
    				{
    					if ($p->hasChildNodes()) //Cherche si il y a des noeuds enfants
    						{
    							foreach ($p->childNodes as $node) //liste les noeuds enfant
    								{
    									if($node->nodeType == 1 && $node->nodeName != 'span') // Si les noeuds sont de type 1 il s'agit d'éléments (et non pas de texte) et l'on regarde s'ils sont différents de span
    										{
    											  $index = trim($node->nodeValue);// Enregistre les valeurs du titre = première balises <strong>
    										}
    									else if($node->nodeType == 3) // noeud texte
     
    									$value = trim($node->nodeValue); // Enregistre les valeurs = seules valeurs texte non inclues dans noeud de p
    								}
     
    							$tab[$index] = str_replace(array("\r\n","\n","\t"),"",$value);// Enregistre les résultats dans un tableau
    						}
    				}
    		}
     
     
    		if ($domt = $dom->getElementsByTagName('table'))//recherche les balises table
     
    		foreach($domt as $table) //liste les balises table
    		{
    			$attribut = $table->hasAttributes() ? $table->getAttribute('class') : null;//cherche les attributs class
     
    			if ($attribut == 'dataTable')// recherche sur la class cible 'dataTable'
    				{
    					if ($table->hasChildNodes()) //Cherche si il y a des noeuds enfants
    						{
    						    $i = 0;
    							foreach ($table->childNodes as $node) //liste les noeuds enfant
    								{
    									if($node->nodeType == 1 && $node->nodeName == 'tr' && $i > 0) // Si les noeuds sont de type 1 il s'agit d'éléments (et non pas de texte) et l'on regarde s'ils sont = tr à partir de la seconde ligne
    										{
    											$td = $node->getElementsByTagName('td');//recherche les balises td
    											if ($td->length >= 3) // si au moins trois éléments (cellules td)
    												{
    													$tab[$td->item(0)->nodeValue]['Share of Voice'] = $td->item(1)->nodeValue;// Enregistre le site = première valeur comme index du tableau $td et les valeurs suivantes comme valeurs
    													$tab[$td->item(0)->nodeValue]['Engagement'] = $td->item(2)->nodeValue;
    												}
    										}
    							            $i++;
    							        }
     
    						}
    				}
    		}
    	}
    	else
    	{
    		echo 'le document '.$page_cible. ' n\'a pas pu être chargé';
    	}
     
    echo '<pre>';
    print_r($tab);
    echo '</pre>';
    ?>
    Bon c'est pas très compliqué quand on connait un peu le DOM mais j'avoue quand même assez laborieux comme code.

    Xpath, je l'utilise pas car j'ai pas encore vu une doc digne de ce nom. Au passage si quelqu'un en connaît une autre que les cinq pages "vides" de la doc php, je suis preneur car je vois pas comment on peut se débrouiller avec si peu d'information.

  20. #20
    Expert éminent sénior

    Profil pro
    Inscrit en
    Septembre 2010
    Messages
    7 920
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2010
    Messages : 7 920
    Points : 10 726
    Points
    10 726
    Par défaut
    tu vas lui faire peur avec ça.

    XPath c'est tout simple :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    $url = 'http://www.alexa.com/search?q=meuble+pas+cher&p=gkey&r=site_siteinfo&s=usineadesign.com';
     
    libxml_use_internal_errors(true);
     
    $doc = new DOMDocument();
    $doc->loadHTMLFile($url);
     
    libxml_clear_errors();
     
    $xpath = new DOMXPath($doc);
    $items = $xpath->query('//table[@class="dataTable"]//td');
     
    $store = array();
     
    foreach($items as $item)
    {
        if(!$item->previousSibling)
        {
            $store[$item->textContent] = array();
            $current = &$store[$item->textContent];
            continue;
        }
     
        $current[] = $item->textContent;    
    }
     
    echo '<pre>', print_r($store, true), '<pre>';
    Pour la doc tout est ici :

    http://www.w3.org/TR/xpath/
    http://msdn.microsoft.com/fr-fr/library/ms256115.aspx


    Ps : pas bien le @$dom->loadHTMLFile, utilise libxml_use_internal_errors

+ Répondre à la discussion
Cette discussion est résolue.
Page 1 sur 2 12 DernièreDernière

Discussions similaires

  1. Réponses: 3
    Dernier message: 20/05/2015, 19h54
  2. Réponses: 1
    Dernier message: 19/05/2015, 21h42
  3. Réponses: 0
    Dernier message: 13/07/2012, 05h04
  4. Récuperation du contenu de la balise
    Par bracket dans le forum Taglibs
    Réponses: 1
    Dernier message: 22/09/2011, 15h28
  5. [CS3] CS3 - balise «strong» et centrage d'une page
    Par Sukotai dans le forum Dreamweaver
    Réponses: 3
    Dernier message: 18/08/2009, 16h41

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo