IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

XSL/XSLT/XPATH XML Discussion :

[Débutante] Extraire des données à partir d'un fichier html avec xsl


Sujet :

XSL/XSLT/XPATH XML

  1. #1
    Membre habitué Avatar de sab_etudianteBTS
    Inscrit en
    Juin 2006
    Messages
    211
    Détails du profil
    Informations forums :
    Inscription : Juin 2006
    Messages : 211
    Points : 173
    Points
    173
    Par défaut [Débutante] Extraire des données à partir d'un fichier html avec xsl
    Bonjour à tous,
    Voila, j'ai un fichier html simple, avec des balises html. J'aimerais pouvoir extraire par exemple toutes les balises <h1> et leur contenu pour les afficher, et ainsi créer un autre fichier ne contenant cette fois-ci que le texte contenu dans les balises <h1>.
    Je ne sais pas comment m'y prendre, je ne sais pas comment lier mon fichier html d'origine à ma feuille xsl...
    J'espère avoir été assez claire!
    Merci pour votre aide
    Je vaux 5 677 200 € sur HumainAVendre.com, et vous ? http://www.humainavendre.com

    Sab

  2. #2
    Membre éprouvé Avatar de alain.couthures
    Profil pro
    Gérant
    Inscrit en
    Avril 2007
    Messages
    902
    Détails du profil
    Informations personnelles :
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Gérant

    Informations forums :
    Inscription : Avril 2007
    Messages : 902
    Points : 1 247
    Points
    1 247
    Par défaut
    Le problème avec HTML est qu'il s'agit presque toujours de ce que les anglo-saxons appellent de la soupe de balises et que cela ne constitue pas un document XML bien formé. Je suis toujours effaré de constater que des sites "prestigieux" osent mettre une DTD XHTML en tête de leurs pages alors qu'il ne s'agit en rien de XML bien formé et encore moins de XHTML !

    Il existe HTML Tidy qui est un bon programme pour migrer une page HTML en page XHTML. Mais il est surdimensionné pour simplement, ensuite, extraire des données de la page initiale. Il faut le lancer avec les bonnes options. Il en existe plusieurs portages en différents langages compilés.

    Pour mes propres besoins, je viens justement de réaliser un petit projet consistant à coder un automate à une passe pour transformer un document HTML en XML bien formé, un point c'est tout. En PHP comme en C#, cela fait un peu moins de 500 lignes de code (sans compter les quelques tableaux utilisés, notamment pour traduire les entités telles que &eacute; en leur équivalent numérique...). Je viens juste de demander l'enregistrement d'un nouveau projet sur sourceforge.net (light-html2xml devrait être son nom de code) pour partager tout ça librement.
    Formulaires XForms sur tous navigateurs sans extension à installer (architecture XRX) : http://www.agencexml.com/xsltforms/

  3. #3
    Membre éprouvé
    Profil pro
    Responsable Dev
    Inscrit en
    Décembre 2003
    Messages
    788
    Détails du profil
    Informations personnelles :
    Localisation : France, Vendée (Pays de la Loire)

    Informations professionnelles :
    Activité : Responsable Dev

    Informations forums :
    Inscription : Décembre 2003
    Messages : 788
    Points : 1 063
    Points
    1 063
    Par défaut
    je crois qque tout est dit ton problème est avant tout la source duc document

  4. #4
    Membre éprouvé Avatar de alain.couthures
    Profil pro
    Gérant
    Inscrit en
    Avril 2007
    Messages
    902
    Détails du profil
    Informations personnelles :
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Gérant

    Informations forums :
    Inscription : Avril 2007
    Messages : 902
    Points : 1 247
    Points
    1 247
    Par défaut
    Voici le lien vers le projet qui vient juste d'être ouvert : http://sourceforge.net/projects/light-html2xml

    Je pense pouvoir faire le premier upload dans la journée.

    J'ai fait des tests avec différentes pages pourries et ça marche déjà bien et vite sur mon poste en C# et en PHP...
    Formulaires XForms sur tous navigateurs sans extension à installer (architecture XRX) : http://www.agencexml.com/xsltforms/

Discussions similaires

  1. Extraire des données à partir d'un fichier
    Par jasmin59000 dans le forum Entrée/Sortie
    Réponses: 6
    Dernier message: 17/02/2012, 15h14
  2. extraire des données à partir d'un fichier texte
    Par bigplayer dans le forum Langage
    Réponses: 3
    Dernier message: 03/04/2007, 21h33
  3. récuperer des données à partir d'un fichier écrit en HTML
    Par moabomotal dans le forum API standards et tierces
    Réponses: 2
    Dernier message: 01/11/2006, 19h50
  4. Réponses: 8
    Dernier message: 22/08/2006, 12h51
  5. Réponses: 4
    Dernier message: 19/03/2006, 15h20

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo