Requête dans google sheet

**ikerrel** · 13/01/2020, 15h36

Bonjour et bonne année à tous,

Depuis quelques jours j’essaie d'amélioré un "outil" utilisé par le web-master de la société dans la quelle je travail et là je suis bloqué :/

Je veux utilisé google sheet pour faire du "scraping". Sheet a une fonction "ImportXML()" qui permet d'importé à peu prêt ce que l'on veux du moment que l'on sais lui parlé... et visiblement moi je lui parle allemand comme un éléphant espagnol.

Sur la page ici : https://www.google.com/search?&q=tra...Angoul%C3%AAme

Je cherche à récupéré uniquement les url des site trouvé ( CaD : soit les liens en vert sous les balise <cite class"iUh30">, soit le lien mit dans le href des balises a )

la fonction : =IMPORTXML(<url de la recherche google>;<la requete en Xpath).

en utilisant =IMPORTXML(<url>;//a//@href) il me sort TOUT les liens trouvable dans la page. À noter ici que la requête //div//a//@href fait la même chose.

pour =IMPORTXML(<url>;//div[text()]) il me sort tout les textes (normal mdr) dont ceux situé dans la balise que je cherche à visé

ça c'est ce qui a été testé et m'a donné un résultat...

j'ai essayé :
//div[@class='r']/a/@href ==> contenue vide
//div[@class='g']/a/@href ==> contenue vide
//div/@class ==> me retourne les class
//div[@class='TbwUpd'] ==> contenue vide
//div[@class='r']//a//@href ==> contenue vide

je commence à me dire que y a pas moyen des se faire ma liste :/

une idée ?

PS : sorry pour les fautes et n'hésitez pas à poser des question si je suis pas clair

**CosmoKnacki** · 14/01/2020, 14h22

Je n'utilise pas Google Sheets, mais d'après la doc, la syntaxe serait plutôt:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

=IMPORTXML("http://lesite.com/bidule.html", "//div[@class='r']/a/@href")

Donc avec des paramètres entre double quotes et séparés d'une virgule.

**ikerrel** · 14/01/2020, 15h04

effectivement si on utilise la fonction tel-quel il faut des paramètres entre double quotes e tséparés d'un point virgule.
mais vu que je suis dans un tableau ma fonction ressemble à ça : =IMPORTXML(B4;$B$3) et là pas besoin des quotes

la requête (//div[@class='r']/a/@href) ne renvoie rien :/ à croire que la fonction ne parvient pas à trouver le chemin quand il est trop "complexe"

**thelvin** · 16/01/2020, 22h52

En même temps c'est une page de résultats de recherche de Google, que tu essaies d'importer, là.

Quand on veut faire des recherches Google automatiques au lieu de le faire manuellement dans son navigateur, Google vend des droits d'accès pour faire ça.

Normal donc qu'ils s'arrangent pour que ça marche pas quand on essaie de le faire gratis.

Cela dit je comprends assez mal le mécanisme qui fait que tu as certains résultats. Normalement tu ne devrais rien avoir du tout, vu que la page en question ne fournit aucune information balisée en HTML/XML, mais uniquement du JavaScript ultra-obfusqué.

**CosmoKnacki** · 17/01/2020, 00h42

Normalement tu ne devrais rien avoir du tout, vu que la page en question ne fournit aucune information balisée en HTML/XML, mais uniquement du JavaScript ultra-obfusqué.

Même pas, les balises sont bien présentes, mais quasi invisibles à l'œil nu car tout est en plein milieu d'une ligne super longue (ligne 128 si je ne me trompe pas), pour la trouver dans les trois tonnes de JavaScript il suffit de faire une recherche texte sur un des résultats. Le code html n'est pas généré dynamiquement en JavaScript car j'ai aussi testé le chargement de la page avec NoScript activé et on obtient la même structure.

**ikerrel** · 17/01/2020, 09h20

Après plusieurs essaies de tout et n’importe-quoi j'ai pris le temps de réfléchir un peut...

Faire cela à pour but de vérifié le placement du site dans les recherche google fait pas les prospects sur leur ordinateur.
Les gens sont TRES TREs TRES souvant sur du https et non du http. CE qui fait que bah ce ue je fait me donne une mauvaise information car rien que la différence de protocole donne des placements différents...

Donc stop à la réflexion dur google sheet et son importXML.

J'ai trouvé un autre moyen de faire en passent par autre chose. Merci de votre aide et bonne journée.

Requête dans google sheet [XPATH 2.0]

XSL/XSLT/XPATH XML

Discussions similaires

Partager

Partager