IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

HTML Discussion :

[HTML] [concours] developpement d'un parser HTML


Sujet :

HTML

  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    Février 2006
    Messages
    86
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 86
    Points : 97
    Points
    97
    Par défaut [HTML] [concours] developpement d'un parser HTML
    bonjour,

    suite a ce thread dans la rubrique "C", l'idee est apparue d'organiser un petit concours dont l'objet serait le developpement d'un parser HTML.

    l'objectif est de realiser un parser rapide et robuste, capable d'extraire correctement les liens d'un flux HTML (pour plus de details, voir le thread en question).

    l'interet est double: comparer les differentes approches, et susciter une emulation entre les participants, le tout dans une ambiance plutot decontractee (pas de formalisation a outrance, deadline hyper souple d'autant que certains d'entre nous se sont deja penches sur le probleme, etc..). il ne s'agit pas, bien sur, de reutiliser une libxml quelconque (quoiqu'il pourrait etre intererssant de comparer les resultats), mais bien de se creuser un peu les meninges.

    cette experience etant egalement une bonne occasion de "revisiter" un peu les particularites syntaxiques de ce langage, il me semble que la presente annonce n'est pas completement hors sujet dans ce forum. nous invitons donc toutes les personnes qui seraient interessees a nous rejoindre (et a participer ! soit en proposant une implementation de parser, soit en fournissant des "corpus" de test).

    merci et.. bon code

    -pirus.

  2. #2
    Membre éclairé Avatar de fallais
    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Juillet 2006
    Messages
    858
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux

    Informations forums :
    Inscription : Juillet 2006
    Messages : 858
    Points : 783
    Points
    783
    Par défaut
    What is "un parser" ?

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Février 2006
    Messages
    86
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 86
    Points : 97
    Points
    97
    Par défaut
    Citation Envoyé par Elwin
    What is "un parser" ?
    mh ouais, j'ai tendance a utiliser les noms anglais que tout le monde comprend pour designer les choses courantes que tout le monde connait, au lieu d'inventer des expressions francaises ridicules qui mettent tout le monde dans le doute

    on pourrait dire un "analyseur syntaxique", mais http://dico.isc.cnrs.fr me dit que "to break down" peut etre assimile a un synonyme de "to parse", et que "écrouler" est une traduction directe acceptable de "to break down". dans la plus pure tradition du "petit interneticiel francais" (3615 code JACQUESTOUBON), on pourrait donc sans doute creer une nouvelle expression: un ecrouleur syntaxique :p

    (desole, c'etait pas pour toi, je n'ai pas pu m'empecher de saisir l'occasion pour me venger de toutes ces expressions francaises idiodes qui me brulent les yeux a longeur de threads^Wfils ).

    viens nous rejoindre ! ca se passe ici.

    -pirus.

  4. #4
    Membre éclairé Avatar de fallais
    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Juillet 2006
    Messages
    858
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux

    Informations forums :
    Inscription : Juillet 2006
    Messages : 858
    Points : 783
    Points
    783
    Par défaut
    Ok lol mais c'est quoi le but ?

    PS : des expressions qui t'enervent ... ? Du type courriel ?

  5. #5
    Membre régulier
    Profil pro
    Inscrit en
    Février 2006
    Messages
    86
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 86
    Points : 97
    Points
    97
    Par défaut
    Citation Envoyé par Elwin
    Ok lol mais c'est quoi le but ?
    le but est de developper un programme qui lit du HTML sur son entree standard (stdin), qui l'analyse pour en extraire les URL, et qui affiche chaque URL contenu dans le code HTML, un URL par ligne.

    bien sur, ca devient rigolo dans la mesure ou certaines pages HTML ne sont pas particulierement "propres", bien que parfois acceptables du point de vue de la norme W3C.

    par exemple:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    <img alt="pouet"
      src="/pics/pouet.jpg"
    >
    (mais ce n'est qu'un exemple parmi d'autres )

    Citation Envoyé par Elwin
    PS : des expressions qui t'enervent ... ? Du type courriel ?
    "courriel" encore, ca vient du Quebec, donc ca peut pas etre completement mauvais c'est pas pire que "mèl", en tout cas.. mais oui, ce genre de choses.

    -pirus.

  6. #6
    Membre éclairé Avatar de fallais
    Homme Profil pro
    Ingénieur systèmes et réseaux
    Inscrit en
    Juillet 2006
    Messages
    858
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur systèmes et réseaux

    Informations forums :
    Inscription : Juillet 2006
    Messages : 858
    Points : 783
    Points
    783
    Par défaut
    Ok .... faut donc s'y connaitre en C++ ... ?

    Mèl ouai ca aussi c'est pas mal

  7. #7
    Membre régulier
    Profil pro
    Inscrit en
    Février 2006
    Messages
    86
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2006
    Messages : 86
    Points : 97
    Points
    97
    Par défaut
    Citation Envoyé par Elwin
    Ok .... faut donc s'y connaitre en C++ ... ?
    ca implique effectivement de connaitre un minimum le C ou le C++ (la question n'est pas encore clairement tranchee, c'est justement l'objet du debat actuellement).

    si tu veux plus d'infos, il vaut mieux que tu ailles voir sur le thread en question (sinon je vais avoir du mal a repondre rapidement et preparer mon demenagement ).

    -pirus.

Discussions similaires

  1. [HELP] Modélisation d'un parser HTML
    Par dazulu dans le forum Langages de programmation
    Réponses: 11
    Dernier message: 31/07/2006, 02h03
  2. [VB]parser HTML
    Par wehtam dans le forum VB 6 et antérieur
    Réponses: 8
    Dernier message: 01/02/2006, 00h26
  3. Parser HTML
    Par Mucsy dans le forum MFC
    Réponses: 3
    Dernier message: 02/01/2006, 16h49
  4. [Système] Existe-t-il un bon parser HTML pour PHP ?
    Par MiJack dans le forum Langage
    Réponses: 8
    Dernier message: 25/10/2005, 12h18
  5. [Parser HTML] quel parser utiliser pour du HTML 4.0 ?
    Par Cyber@l dans le forum API standards et tierces
    Réponses: 5
    Dernier message: 19/07/2004, 20h32

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo