Bonjour et bonne année à tous,
Depuis quelques jours j’essaie d'amélioré un "outil" utilisé par le web-master de la société dans la quelle je travail et là je suis bloqué :/
Je veux utilisé google sheet pour faire du "scraping". Sheet a une fonction "ImportXML()" qui permet d'importé à peu prêt ce que l'on veux du moment que l'on sais lui parlé... et visiblement moi je lui parle allemand comme un éléphant espagnol.
Sur la page ici : https://www.google.com/search?&q=tra...Angoul%C3%AAme
Je cherche à récupéré uniquement les url des site trouvé ( CaD : soit les liens en vert sous les balise <cite class"iUh30">, soit le lien mit dans le href des balises a )
la fonction : =IMPORTXML(<url de la recherche google>;<la requete en Xpath).
en utilisant =IMPORTXML(<url>;//a//@href) il me sort TOUT les liens trouvable dans la page. À noter ici que la requête //div//a//@href fait la même chose.
pour =IMPORTXML(<url>;//div[text()]) il me sort tout les textes (normal mdr) dont ceux situé dans la balise que je cherche à visé
ça c'est ce qui a été testé et m'a donné un résultat...
j'ai essayé :
//div[@class='r']/a/@href ==> contenue vide
//div[@class='g']/a/@href ==> contenue vide
//div/@class ==> me retourne les class
//div[@class='TbwUpd'] ==> contenue vide
//div[@class='r']//a//@href ==> contenue vide
je commence à me dire que y a pas moyen des se faire ma liste :/
une idée ?
PS : sorry pour les fautes et n'hésitez pas à poser des question si je suis pas clair
Partager