VB6 récupérer une page HTML telle qu'affichée sur chrome ou firefox

**gabuzomeu1** · 19/02/2023, 15h39

Bonjour.

je souhaite recupérer le contenu d'une page html. J'ai utilisé plusieurs possibilités URLDownloadToFile ou inet. Je récupère bien un fichier html similaire à celui qu'on peut récupérer lorsqu'on fait précéder l'url de "view-source:" depuis un navigateur.
Par contre, le contenu diffère de celui obtenu en sauvegardant la page depuis Chrome ou depuis Firefox (par CTRL-S) par exemple.
Le problème est que lorsqu'on fait un scroll sur la page et qu'on est presque arrivé à la fin de la page, des éléments supplémentaires sont ajoutés.
Ici https://infiniteajaxscroll.com/examples/articles/ se trouve une illustration de ce que je décris.

Ma question est comment récupérer le fichier html généré (tel qu'affiché sur la page) et pas celui récupéré par les méthodes que j'ai citées plus haut.

Merci d'avance pour votre sollicitude.

**DAUDET78** · 19/02/2023, 17h05

C'est du Latin de cuisine ton lien ?

**gabuzomeu1** · 19/02/2023, 19h45

peu importe le contenu. Si tu vas à la fin de la page, tu verras qu'elle s'auto-alimente. CE que je souhaite c'est récupérer la totalité de la page générée.

**umfred** · 20/02/2023, 18h38

Tu as donné toi même la solution sans t'en rendre compte. Tu fais descendre la page jusqu'en bas et tu récupères ensuite le code html.
Sinon il faut enregistré la page avec les script JS qui génèrent les ajouts de page (dans ton exemple) mais ce ne sera pas toujours le cas.

**gabuzomeu1** · 21/02/2023, 01h18

Heu!.... je sais bien qu'en allant en bas de page, elle s'enrchit de par elle même, puisque c'est l'objet de l'exemple que je donne.
Ma question reste: comment le faire depuis un programme vb6?
Pour l'instant mes solutions consistent à récupérer la page html soit via URLDownloadToFile soit via inet et ce que je récupère c'est la page native.
Comment faire pour simuler la descente en bas de page afin de récupérer la page enrichie, c'est-à-dire en fait enregistrer la page résultant de l'exécution des scripts JS?

**umfred** · 21/02/2023, 14h34

En naviguant sur la page, via selenium par exemple (https://stackoverflow.com/questions/...allation-steps )

**gabuzomeu1** · 21/02/2023, 19h01

oui mais avec selenium, je serais à l'exterieur de vb6. Si je comprends bien, j'écris une macro selenium qui va me permettre de naviguer en bas de page mais ça ne se fera pas dans un webbrowser et encore moins avec inet ou URLDownLoadToFile.
Mon problème reste donc entier.

**umfred** · 22/02/2023, 17h16

Avec un webbrowser rien ne t'empêche d'aller en bas de la page

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
    WebBrowser1.Navigate "https://infiniteajaxscroll.com/examples/articles/"
    Do
        DoEvents
    Loop While WebBrowser1.ReadyState <> READYSTATE_COMPLETE
    WebBrowser1.Document.body.All(Me.WebBrowser1.Document.body.All.length - 1).scrollIntoView

**gabuzomeu1** · 22/02/2023, 20h25

Merci de ta réponse. J'ai essayé. Je n'ai pas d'erreur. Mais, quand je récupère le inerhtml du webbrowser, j'ai toujours la page native non enrichie.
Je ne suis qu'un béotien en vb6 et je n'ai pas envie de m'y atteler en profondeur.
Je suis étonné qu'il n' y ait pas répertorié une façon d'obtenir la page enrichie.

J'ai vu de nombreux exemples connexes et notamment il est question d'interpréter le contenu d'un fichier javascript. Moi je ne veux pas réinventer la poudre, ni bâtir une usine à gaz, juste récupérer le résultat.

Par exemple, lorsque sous firefox, on enregistre une page html, un répertoire est créé du nom du fichier html. On y trouve tous les éléments constitutifs de la page: notamment les fichiers js mais pas seulement. Surtout, lorsqu'on examine le fichier html, ce n'est pas la page native qu'on retrouve mais la page enrichie.

A la limite, je m'orientais vers l'idée d'exécuter firefox via un shell mais je ne sais pas ensuite de quelle façon demander la navigation en bas de page, puis la sauvegarde de la page, après son affichage en totalité. Et ensuite, j'aurais pompé le fichier html généré dans le répertoire: très lourd, très inélégant mais bon, c'est une piste quand même...

Si quelqu un avait une idée...pour une solution vb6 ou par passerelle firefox ou autre....merci.

**umfred** · 23/02/2023, 13h27

Le but final de récupérer le contenu de la page c'est quoi ? parce que utiliser selenium ou firefox, ça va revenir au mème (le webbrowser étant très vieux, il ne charge pas la suite de la page qui s'ajoute par le script).
Pour utiliser selenium dans VB6 il faut suivre la méthode indiqué pour VBA, il me semble.

**gabuzomeu1** · 23/02/2023, 19h43

l'objectif est de récupérer la page complète parce que les informations qui m'intéressent s'y trouvent. Je récupère la page entière. Je l'analyse avec un automate d'états finis (ça, j'ai déjà écrit) et je récupère ce que je veux.
Si le webbrowser est très vieux, qu'est-ce qui existe maintenant plus au goût du jour et qui fera le job?

VB6 récupérer une page HTML telle qu'affichée sur chrome ou firefox

VB 6 et antérieur

Discussions similaires

Partager

Partager