IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Algorithmes et structures de données Discussion :

cherche algo pour spliter une page web


Sujet :

Algorithmes et structures de données

  1. #1
    Membre habitué Avatar de guiyomh
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    328
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 328
    Points : 155
    Points
    155
    Par défaut cherche algo pour spliter une page web
    bonjour a tous,
    je cherche un algo ou une idée pour spliter (découper une page web) !

    Mais je veux pas la spliter n'importe comment ! mon but est de faire un robot qui parse des forum ou blog avec pour objectif de trouvé les post publicitaire faits par des robot spammeur, et de remonter une alerte (=>voir d'agir quand c'est possible).

    j'ai faits mon robot qui parcourt un site, mais je me heurte au problème de découpage de la page. j'explique, quand mon robot aspire une page de forum par exemple, je souhaiterais analyser le contenu de chaque post (réponse). Le truc c'est qu'il n'existe pas de norme pour séparer deux poste. Je pourrais faire un fichier de configuration pour chaque forum que je traite, mais je trouve ça long et fastidieux.

    Alors je me demandais s'il n'y avais pas des personne qui connaissais des outils ou un principe de base pour pouvoir découpé une liste de réponse d'un forum en plusieurs fragment de text ?

    merci à tous.

    PS: j'utilise du python mais je suis ouvert a d'aute language !

  2. #2
    Rédacteur
    Avatar de pseudocode
    Homme Profil pro
    Architecte système
    Inscrit en
    Décembre 2006
    Messages
    10 062
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Architecte système
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2006
    Messages : 10 062
    Points : 16 081
    Points
    16 081
    Par défaut
    ... de la détection de motif, afin de trouver des "blocs" HTML répétitif ?

  3. #3
    Membre habitué Avatar de guiyomh
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    328
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 328
    Points : 155
    Points
    155
    Par défaut
    mouais c'est ça que je cherche a faire

    a découper une page html en bloc html !

    bon déjà je sais que je peux commencer a partir de la balise <body> jusqu'à la balise</body>

    mais après le code est aléatoire en fonction des forum.

    ça peut être un ensemble de <div ...> ou de <td..> ou de <span...>........
    voir des combinaison de plusieur balise.
    Par exemble sur ce forum si je devais le faire à la main pour délimité les posts de cette page: je ferais un truc comme ça :
    debut_post=<table id="post
    fin_post=<div id="postmenu_

    en regex je prends tout ce qui est contenu entre c deux marqueurs : <table id="post(.+)?(<div id="postmenu_)

    ça peux marcher très bien si je fais des fichier de paramètre à la main, mais moi je cherche la petite bêtes, je veux que la machine le trouve tout seul ce motif de départ et se motif de fin.

    Avez vous une idée, ou des piste a explorer ?

  4. #4
    Membre habitué Avatar de guiyomh
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    328
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 328
    Points : 155
    Points
    155
    Par défaut
    en faite c'est une recherche par motif que je veux faire, mais le/les motifs sont inconnus au début. Comment je pourrais les déterminer ?

  5. #5
    Rédacteur
    Avatar de pseudocode
    Homme Profil pro
    Architecte système
    Inscrit en
    Décembre 2006
    Messages
    10 062
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 51
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Architecte système
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2006
    Messages : 10 062
    Points : 16 081
    Points
    16 081
    Par défaut
    Citation Envoyé par guiyomh Voir le message
    Avez vous une idée, ou des piste a explorer ?
    Heu.. oui. De la détection de motif.

    Ton document HTML est une sorte d'arbre (racine=BODY).

    Le problème est de trouver une structure qui se répete dans ton document HTML, comme par exemple:
    Code html : Sélectionner tout - Visualiser dans une fenêtre à part
    <div class="x"><table><tr>...</tr><tr>...</tr></table></div>

    qui dans ton arbre se représente sous la forme d'un sous arbre:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
     
    <div class="x">
          |
       <table>
        __|__
       |     |
     <tr>   <tr>
       |     |
     ...    ...
    Il faut donc chercher des arbres qui se répètent. Il y a des méthodes "brut-force" dans lesquels on cherche tous les arbres possibles à partir de l'arbre de départ. Il y a des méthodes plus sophistiquées avec des graphes d'adjacences.

  6. #6
    Membre habitué Avatar de guiyomh
    Profil pro
    Inscrit en
    Avril 2007
    Messages
    328
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2007
    Messages : 328
    Points : 155
    Points
    155
    Par défaut
    ok je vois le truc !

    moi perso j'utilise python, il me suffirait donc de charger la page xhtml dans un objet Dom, puis de lister chaque noeud.

    Ensuite je compare chaque noeud de la liste avec les autre noeud de cette même liste et j'en resort une liste des noeuds commun.

    Je pense que je tiens un début je vais tester ça dés ce soir et je vous tient au courant.
    Encore merci.

    Ps, si quelqu'un vois autre choses que dom pour comparer les arbre je suis preneur !

Discussions similaires

  1. [Bénévole] Besoin d'un coup de main pour faire une page web
    Par lefrangin dans le forum Autres
    Réponses: 0
    Dernier message: 12/10/2010, 23h17
  2. Commande pour imprimer une page web
    Par scary dans le forum Linux
    Réponses: 4
    Dernier message: 10/07/2009, 02h13
  3. [XL-2000] Attente (tempo) pour générer une page web
    Par peofofo dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 29/04/2009, 12h03
  4. JACOB pour visualiser une page web dans application
    Par pcouas dans le forum API standards et tierces
    Réponses: 1
    Dernier message: 15/03/2008, 06h15
  5. Javascript pour charger une page web depuis un menu déroulan
    Par tomguiss dans le forum Général JavaScript
    Réponses: 1
    Dernier message: 14/10/2005, 08h58

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo