IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

JavaScript Discussion :

Extraction données javascript page web


Sujet :

JavaScript

  1. #1
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Octobre 2012
    Messages
    51
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2012
    Messages : 51
    Points : 51
    Points
    51
    Par défaut Extraction données javascript page web
    Bonjour à tous.
    Tout d'abord je tiens à m'excuser si la section n'est pas la bonne. Je tente de résoudre un problème qui m'est assez difficile;
    Je veux extraire des donnés sur une page web.
    En l’occurrence, par exemple sur cette page: http://www.decathlon.fr/vtt-rockride...entProductAvis

    En bas de cette page.
    Je voudrais récupérer les commentaires en deuxième page (de commentaires).

    Le problème de l'extraction des commentaires en première page est simple puisqu'ils sont directement écrits dans le code source de la page. Mais pour les pages suivantes (pages de commentaires), un script javascript modifie les données affichées sans modifier le code source et je n'ai donc plus accès aux commentaires de la deuxième page de commentaire.

    Je ne sais pas si c'est assez clair. Je voulais savoir si quelqu'un avait une idée de piste pour résoudre ce genre de problème?

    Merci d'avance.
      0  0

  2. #2
    Membre émérite
    Avatar de Kaamo
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    1 165
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 1 165
    Points : 2 778
    Points
    2 778
    Par défaut
    Pas besoin. Les commentaires de toutes les pages sont inclus dans la page source directement.
    Appuyer sur les boutons pour accéder aux pages de commentaires n'a pour effet que de cacher/afficher les div relatives aux pages.

    Donc tu dois avoir accès à tous les commentaires directement
      0  0

  3. #3
    Rédacteur/Modérateur

    Avatar de SpaceFrog
    Homme Profil pro
    Développeur Web Php Mysql Html Javascript CSS Apache - Intégrateur - Bidouilleur SharePoint
    Inscrit en
    Mars 2002
    Messages
    39 640
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 74
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Développeur Web Php Mysql Html Javascript CSS Apache - Intégrateur - Bidouilleur SharePoint
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2002
    Messages : 39 640
    Points : 66 664
    Points
    66 664
    Billets dans le blog
    1
    Par défaut
    A priori ce n'est pas toi qui code ces pages ...

    Donc vouloir récupérer des informations contenues dans ces pages sans l'autorisation expresse de leur propriétaire est une infraction pénale !!!!
      0  0

  4. #4
    Rédacteur

    Avatar de Bovino
    Homme Profil pro
    Développeur Web
    Inscrit en
    Juin 2008
    Messages
    23 647
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2008
    Messages : 23 647
    Points : 91 220
    Points
    91 220
    Billets dans le blog
    20
    Par défaut
    Appuyer sur les boutons pour accéder aux pages de commentaires n'a pour effet que de cacher/afficher les div relatives aux pages.
    Pas forcément, ils peuvent être ajoutés avec AJAX.

    Le problème de l'extraction des commentaires en première page est simple puisqu'ils sont directement écrits dans le code source de la page.
    Simple ? Pas en JavaScript en tout cas : tu es limité par la Same Origin Policy...

    Mais en tout état de cause, la légalité de la demande est effectivement plus que douteuse.
      0  0

  5. #5
    Membre confirmé

    Profil pro
    Inscrit en
    Octobre 2010
    Messages
    311
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2010
    Messages : 311
    Points : 545
    Points
    545
    Par défaut
    Citation Envoyé par bougnbie Voir le message
    Je voulais savoir si quelqu'un avait une idée de piste pour résoudre ce genre de problème?
    Salut !
    Tu peux soit monitorer toutes les requetes asynchrones effectués lors d’un clique sur la deuxième page (apparemment c’est cette URL).

    Soit utiliser PhantomJS qui permet de nombreuses choses, comme simuler un clique sur une page et manipuler le DOM en javascript
      0  0

  6. #6
    Membre émérite
    Avatar de Kaamo
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2007
    Messages
    1 165
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2007
    Messages : 1 165
    Points : 2 778
    Points
    2 778
    Par défaut
    Pas forcément, ils peuvent être ajoutés avec AJAX.
    Ce n'était pas une hypothèse, j'ai vérifié dans le code de la page en question avant de répondre. Mais en effet, j'avais qu'à moitié raison.
    A priori, au chargement de la page, deux pages de commentaires sont ramenées. (afficher la source de la page en question pour remarquer que les commentaires de la page 2 sont déjà présents), le reste est ramené en asynchrone effectivement.

    Pourquoi cela serait illégal de récupérer des commentaires via un script ? Si on part du principe que si on y a accès en lecture. Je pense que c'est illégal si ensuite tu en fais une utilisation commerciale
      0  0

  7. #7
    Rédacteur

    Avatar de Bovino
    Homme Profil pro
    Développeur Web
    Inscrit en
    Juin 2008
    Messages
    23 647
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2008
    Messages : 23 647
    Points : 91 220
    Points
    91 220
    Billets dans le blog
    20
    Par défaut
    Dans une librairie, les livres sont disponibles en consultation publique, c'est pas pour ça que tu as le droit d'en prendre un et de le photocopier.
      0  0

  8. #8
    Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Octobre 2012
    Messages
    51
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Octobre 2012
    Messages : 51
    Points : 51
    Points
    51
    Par défaut
    Merci pour vos réponses.

    Tout d'abord pour le coté légalité; mon seul intérêt est de pouvoir faire ce genre de choses "théoriquement", en aucun cas ces données m’intéressent particulièrement. Et certainement pas à des fins commerciales.

    L'exemple de la page 2 était peut être pas tout à fait parlant; je veux pouvoir chopper les commentaires qui sont justement ramenés en asynchrone.

    Encore une fois la page 1 est facile à récupérer puisque tout est accessible dans le source directement.

    Merci beaucoup à vous en tout cas, surtout p3ga5e, je vais jeter un oeil à ton lien, c'est tout à fait ce que je veux!
    Par contre comment as-tu fais pour monitorer les requêtes asynchrones? c'est quelque chose que j'ai essayé de faire sans succès. C'est également possible en faisant ça d'accéder aux pages 3,4...etc?
      0  0

  9. #9
    Rédacteur/Modérateur

    Avatar de SpaceFrog
    Homme Profil pro
    Développeur Web Php Mysql Html Javascript CSS Apache - Intégrateur - Bidouilleur SharePoint
    Inscrit en
    Mars 2002
    Messages
    39 640
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 74
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Développeur Web Php Mysql Html Javascript CSS Apache - Intégrateur - Bidouilleur SharePoint
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2002
    Messages : 39 640
    Points : 66 664
    Points
    66 664
    Billets dans le blog
    1
    Par défaut
    Tout d'abord pour le coté légalité; mon seul intérêt est de pouvoir faire ce genre de choses "théoriquement", en aucun cas ces données m’intéressent particulièrement. Et certainement pas à des fins commerciales.
    Developpez n'est pas là pour donner des moyens théorique de faire du leeching !
      0  0

Discussions similaires

  1. Extraction de données de pages web à l'aide de HTML Agility Pack
    Par tomlev dans le forum Général Dotnet
    Réponses: 45
    Dernier message: 07/10/2015, 21h04
  2. Recuperation de données dans page web
    Par depelek dans le forum Langage
    Réponses: 2
    Dernier message: 11/10/2006, 17h24
  3. Recuperation de données dans page web
    Par depelek dans le forum Général JavaScript
    Réponses: 6
    Dernier message: 11/10/2006, 15h31
  4. [VB]stocker des données de pages web dans une base
    Par tofito dans le forum VB 6 et antérieur
    Réponses: 3
    Dernier message: 15/02/2006, 11h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo