Bonjour,
J'essaye de parser une page HTML préalablement nettoyée à l'aide de Tidy. Malheureusement le contenu étant très mal généré, les tags ne sont pas toujours utilisés à bon escient et je n'arrive pas à accéder aux données que je désirs.
Voici un exemple de code à parser :
J'arrive sans problème à accéder au contenu du SPAN, mais j'aimerais pouvoir récupérer facilement le contenu entre la fin du SPAN et le BR.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13 <ol start="2" type="I"> <li> <span class="o1"><span class="ps" title='intransitive verb'>intransitive verb</span></span> to finish, to end;<br /> [<span class="i">contract, lease</span>] to run out;<br /> <span class="b">le film finit bien</span> the film has a happy ending;<br /> <span class="b">ça va mal ~!</span> it'll end in tears!;<br /> <span class="b">~ par faire</span> to end up doing;<br /> <span class="b">ils finiront bien par céder</span> they're bound to give in in the end;<br /> <span class="b">en ~ avec qn/qch</span> to have done with sb/sth;<br /> <span class="b">finissons-en!</span> let's get it over with! </li> </ol>
Existe-t-il un moyen ?
La seule solution que j'entrevois, c'est de récupérer le contenu du SPAN, puis le contenu total, et de faire un substring de la chaîne la plus complète.
D'avance merci.
Partager