IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Web Perl Discussion :

XML::Twig "parse error"


Sujet :

Web Perl

  1. #1
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2010
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2010
    Messages : 8
    Points : 5
    Points
    5
    Par défaut XML::Twig "parse error"
    J'applique Twig pour parser des sites de forums, et sur la plupart des sites j'ai énormément de "parse errors", pratiquement intraçables.
    Où est le problème?

    Leur code XMTML n'est pas conforme et Twig n'est pas assez robuste ?

    Il faut se rabattre sur le Xpath ordinaire ?

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Normalement Twig gère correctement le XHTML. Il se peut qu'il ne soit pas valide tout simplement.
    Peux tu nous donner un exemple de code XHTML et de ton code perl.

  3. #3
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2010
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2010
    Messages : 8
    Points : 5
    Points
    5
    Par défaut
    ## Voici un test sur une page de Le Figaro
    ## Renvoie erreur: mismatched tag at line 24, column 2, byte 2358 at C:/Perl/lib/XML/Parser.pm line 187
    at C:\Code\wrapper\twig8-fi-un_policier.pl line 15
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    #!/usr/bin/perl -w
    use strict;
     
    use XML::Twig;
     
     
    my $url = 'http://plus.lefigaro.fr/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires';
     
    my $t=XML::Twig->new();
    my $handlers = {
        'a[@id]'   => \&f_lefigaro
    };
     
    $t -> setTwigHandlers ($handlers);
    $t ->parseurl($url) or print "\n==PARSE ERROR==\n";
     
     sub f_lefigaro #   called if match p class=posted
     {
            my ($t, $elt) = @_;
             print "Tag", $elt->name, "\n";
             print "Valeur : ";
             print $elt->att->pcdata, "\n";
    }
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
     ## PATTERN
    # <a id="comment-4529261"></a>
    #<div class="comment comment-published clear-block"><a href="/page/paul-56-22-345321" class="avatar"><img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/avatar_selection/avatar-28.jpg" alt="Avatar" title="avatar de paul 56-22"  class="imagecache imagecache-X-small" width="50" height="50" /></a><a href="http://plus.lefigaro.fr/page/paul-56-22-345321" title="La page de paul 56-22" class="user">paul 56-22</a>regardez   la police Brésilienne  exécution immédiate des  pourris  et pas  de parlottes stériles donc inutiles     <div class="timestamp">Le 3/12/2010 à 12:34    <span class="lien-editer"></span>
    #    <span class="lien-workflow"></span>
    #    <span class="lien-alerter"><a href="/figaro_workflow/comment/4529261/alerter">Alerter</a></span>
    #    <span class="lien-supprimer"></span>
    #    <span class="lien-repondre"><a href="/comment/reply/341246/4529261">Répondre</a></span>
    #    </div>
    #  </div>

  4. #4
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    En téléchargeant le contenu de cette page et en le reformattant via un éditeur de texte, on s'aperçoit qu'il n'est pas valide.

    Code xhtml : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
    69
    70
    71
    72
    73
    74
    75
    76
    77
    78
    79
    80
    81
    82
    83
    84
    85
    86
    87
    88
    89
    90
    91
    92
    93
    94
    95
    96
    97
    98
    99
    100
    101
    102
    103
    104
    105
    106
    107
    108
    109
    110
    111
    112
    113
    114
    115
    116
    117
    118
    119
    120
    121
    122
    123
    124
    125
    126
    127
    128
    129
    130
    131
    132
    133
    134
    135
    136
    137
    138
    139
    140
    141
    142
    143
    144
    145
    146
    147
    148
    149
    150
    151
    152
    153
    154
    155
    156
    157
    158
    159
    160
    161
    162
    163
    164
    165
    166
    167
    168
    169
    170
    171
    172
    173
    174
    175
    176
    177
    178
    179
    180
    181
    182
    183
    184
    185
    186
    187
    188
    189
    190
    191
    192
    193
    194
    195
    196
    197
    198
    199
    200
    201
    202
    203
    204
    205
    206
    207
    208
    209
    210
    211
    212
    213
    214
    215
    216
    217
    218
    219
    220
    221
    222
    223
    224
    225
    226
    227
    228
    229
    230
    231
    232
    233
    234
    235
    236
    237
    238
    239
    240
    241
    242
    243
    244
    245
    246
    247
    248
    249
    250
    251
    252
    253
    254
    255
    256
    257
    258
    259
    260
    261
    262
    263
    264
    265
    266
    267
    268
    269
    270
    271
    272
    273
    274
    275
    276
    277
    278
    279
    280
    281
    282
    283
    284
    285
    286
    287
    288
    289
    290
    291
    292
    293
    294
    295
    296
    297
    298
    299
    300
    301
    302
    303
    304
    305
    306
    307
    308
    309
    310
    311
    312
    313
    314
    315
    316
    317
    318
    319
    320
    321
    322
    323
    324
    325
    326
    327
    328
    329
    330
    331
    332
    333
    334
    335
    336
    337
    338
    339
    340
    341
    342
    343
    344
    345
    346
    347
    348
    349
    350
    351
    352
    353
    354
    355
    356
    357
    358
    359
    360
    361
    362
    363
    364
    365
    366
    367
    368
    369
    370
    371
    372
    373
    374
    375
    376
    377
    378
    379
    380
    381
    382
    383
    384
    385
    386
    387
    388
    389
    390
    391
    392
    393
    394
    395
    396
    397
    398
    399
    400
    401
    402
    403
    404
    405
    406
    407
    408
    409
    410
    411
    412
    413
    414
    415
    416
    417
    418
    419
    420
    421
    422
    423
    424
    425
    426
    427
    428
    429
    430
    431
    432
    433
    434
    435
    436
    437
    438
    439
    440
    441
    442
    443
    444
    445
    446
    447
    448
    449
    450
    451
    452
    453
    454
    455
    456
    457
    458
    459
    460
    461
    462
    463
    464
    465
    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr" dir="ltr">
      <head>  
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />  
        <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />  
        <link rel="shortcut icon" href="/sites/default/themes/figaropremium/favicon.ico" type="image/x-icon" />  
        <meta name="robots" content="index,follow,noarchive">	
        <meta http-equiv="Cache-Control" content="no-cache">	
        <meta http-equiv="Pragma" content="no-cache">	
        <meta http-equiv="Expires" content="0">  
        <title>Mon Figaro - Réactions à l'article
        </title>  
        <link type="text/css" rel="stylesheet" media="all" href="/sites/default/files/css/css_c39fe5037d9c59a98a7f5935f0d2c72c.css" />  
        <link type="text/css" rel="stylesheet" media="screen,projection" href="/sites/default/files/css/css_e9d3654c372888308db21c2cf9c8bef9.css" />  
    <script type="text/javascript" src="/sites/default/files/js/js_9df92c4598b6c23d268898528359e8ae.js"></script>  
    <script type="text/javascript">
      <!--//--><![CDATA[//><!--
      jQuery.extend(Drupal.settings, {"basePath":"\/","user_relationships_ui":{"loadingimage":"\/sites\/all\/modules\/user_relationships\/user_relationships_ui\/images\/loadingAnimation.gif","savingimage":"\/sites\/all\/modules\/user_relationships\/user_relationships_ui\/images\/savingimage.gif","position":{"position":"absolute","left":"0","top":"0"}},"popups":{"originalPath":"article\/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246\/commentaires","defaultTargetSelector":"div#content","template":"\x3cdiv id=\"popups\"\x3e\n  \x3cdiv id=\"popups-title\"\x3e\n    \x3cdiv id=\"popups-close\"\x3e\x3ca href=\"#\"\x3eFermer\x3c\/a\x3e\x3c\/div\x3e\n    \x3cdiv class=\"title\"\x3e%title\x3c\/div\x3e\n    \x3cdiv class=\"clear-block\"\x3e\x3c\/div\x3e\n  \x3c\/div\x3e\n  \x3cdiv id=\"popups-body\"\x3e%body\x3c\/div\x3e\n  \x3cdiv id=\"popups-buttons\"\x3e%buttons\x3c\/div\x3e\n  \x3cdiv id=\"popups-footer\"\x3e\x3c\/div\x3e\n\x3c\/div\x3e\n","modulePath":"sites\/all\/modules\/popups","popupFinalMessage":1},"commentaires":{"longueur_max":1500}});
      //--><!]]>
      </script>  
    <script type="text/javascript" src="http://www.lefigaro.fr/components/ffw_base.js.php?charset=UTF-8"></script>
      </head>
      <body class="not-front not-logged-in page-article one-sidebar sidebar-right navbar">      
        <div id="nav-bar">      
          <div id="block-figaro_blocs-top" class="block block-figaro_blocs">  
            <div class="content clearfix">    
              <div id="login">  
                <ul id="topnav">              
                  <!-- déconnecté -->       
                  <li class="topnav-login">
                    <a href="/user/login">Connectez-vous</a>
                  </li>      
                  <li class="topnav-register">
                    <a href="/abonnement#xtor=AD-1-[Generique]-[Toolbar_Inscrivezvous]-[]-[TOUS]-[Toolbar_AccesGeneral]">Inscrivez-vous</a>
                  </li>      
                  <li>
                  <a href="/statiques/presentation-cinema#xtor=AD-1-[Generique]-[Toolbar_Decouvrez_offres_Figaro]-[]-[TOUS]-[Toolbar_phrase]">Découvrez nos offres Mon Figaro</a>
                  </li>      
                </ul>  
                <form action="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires"  accept-charset="UTF-8" method="post" id="figaro-compte-publi-note-button-form-top">
                  <div>
                    <input type="submit" name="op" id="edit-submit-publi-note" value="Publier note"  style="display:none; " class="form-submit" />
                    <input type="hidden" name="cdf_email" id="edit-cdf-email" value=""  class="cdf_email" />
                    <input type="hidden" name="cdf_pass" id="edit-cdf-pass" value=""  class="cdf_pass" />
                    <input type="hidden" name="cdf" id="edit-cdf" value=""  />
                    <input type="hidden" name="form_build_id" id="form-8e56b2f62524856c5378d168c1808179" value="form-8e56b2f62524856c5378d168c1808179"  />
                    <input type="hidden" name="form_id" id="edit-figaro-compte-publi-note-button-form-top" value="figaro_compte_publi_note_button_form_top"  />
                  </div>
                </form>
                <form action="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires"  accept-charset="UTF-8" method="post" id="figaro-compte-publi-video-button-form-top">
                  <div>
                    <input type="submit" name="op" id="edit-submit-publi-video" value="Publier video"  style="display:none; " class="form-submit" />
                    <input type="hidden" name="cdf_email" id="edit-cdf-email-1" value=""  class="cdf_email" />
                    <input type="hidden" name="cdf_pass" id="edit-cdf-pass-1" value=""  class="cdf_pass" />
                    <input type="hidden" name="cdf" id="edit-cdf-1" value=""  />
                    <input type="hidden" name="form_build_id" id="form-ce3096741ba4612bfd424ad9c00f2ba6" value="form-ce3096741ba4612bfd424ad9c00f2ba6"  />
                    <input type="hidden" name="form_id" id="edit-figaro-compte-publi-video-button-form-top" value="figaro_compte_publi_video_button_form_top"  />
                  </div>
                </form>
                <form action="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires"  accept-charset="UTF-8" method="post" id="figaro-compte-publi-poll-button-form-top">
                  <div>
                    <input type="submit" name="op" id="edit-submit-publi-poll" value="Publier sondage"  style="display:none; " class="form-submit" />
                    <input type="hidden" name="cdf_email" id="edit-cdf-email-2" value=""  class="cdf_email" />
                    <input type="hidden" name="cdf_pass" id="edit-cdf-pass-2" value=""  class="cdf_pass" />
                    <input type="hidden" name="cdf" id="edit-cdf-2" value=""  />
                    <input type="hidden" name="form_build_id" id="form-fabc101141929f479e84c42d0323c2dd" value="form-fabc101141929f479e84c42d0323c2dd"  />
                    <input type="hidden" name="form_id" id="edit-figaro-compte-publi-poll-button-form-top" value="figaro_compte_publi_poll_button_form_top"  />
                  </div>
                </form>
                <form action="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires"  accept-charset="UTF-8" method="post" id="figaro-compte-publi-image-button-form-top">
                  <div>
                    <input type="submit" name="op" id="edit-submit-publi-image" value="Publier photo"  style="display:none; " class="form-submit" />
                    <input type="hidden" name="cdf_email" id="edit-cdf-email-3" value=""  class="cdf_email" />
                    <input type="hidden" name="cdf_pass" id="edit-cdf-pass-3" value=""  class="cdf_pass" />
                    <input type="hidden" name="cdf" id="edit-cdf-3" value=""  />
                    <input type="hidden" name="form_build_id" id="form-48b8aefbced57cdfecb5ee7f75f71f89" value="form-48b8aefbced57cdfecb5ee7f75f71f89"  />
                    <input type="hidden" name="form_id" id="edit-figaro-compte-publi-image-button-form-top" value="figaro_compte_publi_image_button_form_top"  />
                  </div>
                </form>  
    <script type='text/javascript'>  $('a.publi').click(function() {    var id = $(this).attr('id');    var reg = new RegExp('_', 'g');    var form_id = 'form#figaro-compte-' + id.replace(reg, '-') + '-button-form-top';    $(form_id).submit();    return false;  });</script>
              </div>  
            </div>    
          </div>    
        </div> 
        <!-- /nav-bar -->     
        <div id="page-wrapper" class="clearfix">    
          <div id="page">      
            <div id="header-wrapper">                  
    <script type="text/javascript">
                ffw_displayHeader({userBar:false});
              </script>                          
              <div class="pub-header">
    <script type='text/javascript'>publicite('10994', '151', new Array(null, null, null, null));</script>
              </div>                 
              <div id="navigation" class="menu  ">                             
              </div> 
              <!-- /navigation -->                 
              <div id="content-nav">                  
              </div> 
              <!-- /content-nav -->                  
              <div class="tabs-wrapper clearfix">            
                <h1 class="title" id="page-title">Réactions à l'article</h1>                      
              </div>               
            </div> 
            <!-- /header-wrapper -->      
            <div id="container" class="clearfix">        
              <div id="content-wrapper">                     
                <div id="content">             
                  <div id="node-341246" class="node journaliste_court clear-block">
                    <div class="node-inner">      
                      <div id="node-terms" class="clearfix">     
                        <ul class="links">
                          <li class="Actualités first last">
                            <a href="http://www.lefigaro.fr" rel="tag" title="">Actualités</a>
                          </li>
                        </ul>    
                      </div>
                      <!-- #node-terms -->     <h2>
                        <a href="http://www.lefigaro.fr/actualite-france/2010/12/03/01016-20101203ARTFIG00314-seine-saint-denis-un-policier-renverse-deliberement.php">Seine-Saint-Denis : un policier renversé «délibérément» </a></h2>    
                      <div class="meta">          
                        <div class="terms">Mots clés : 
                          <ul class="links">
                            <li class="CANNABIS first">
                              <a href="/tag/cannabis" rel="tag" title="">CANNABIS,</a>
                            </li>
                            <li class="drogue">
                              <a href="/tag/drogue" rel="tag" title="">drogue,</a>
                            </li>
                            <li class="policier">
                              <a href="/tag/policier" rel="tag" title="">policier,</a>
                            </li>
                            <li class="Ile-de-France">
                              <a href="/tag/ile-de-france" rel="tag" title="">Ile-de-France,</a>
                            </li>
                            <li class="Seine-Saint-Denis last">
                              <a href="/tag/seine-saint-denis" rel="tag" title="">Seine-Saint-Denis</a>
                            </li>
                          </ul>
                        </div>              03/12/2010 | Mise à jour : 12:02      
                      </div>        
                      <div class="submitted">Par 
                        <a href="http://plus.lefigaro.fr/page/lefigarofr-lefigarofr" title="La page de lefigaro.fr" class="journaliste">lefigaro.fr</a> 
                      </div>   
                    </div>
                  </div>
                  <div class="box">  <h2>Réagir à cet article</h2>  
                    <div class="content">
                      <form action="/articlesdv/20101203ARTFIG00314/commentaires"  accept-charset="UTF-8" method="post" id="comment-form">
                        <div>
                          <div class="form-item" id="edit-comment-wrapper"> 
                            <label for="edit-comment">Commentaire*: 
                              <span class="form-required" title="Ce champ est obligatoire.">*
                              </span>
                            </label> 
    <textarea cols="60" rows="15" name="comment" id="edit-comment"  class="form-textarea resizable required"></textarea> 
                            <div class="description">Comments are limited to a maximum of 
                              <em>1500
                              </em> characters.
                            </div>
                          </div>
                          <input type="hidden" name="form_build_id" id="form-d2d966fc88807e12ecf7b5bd1cf9aa8e" value="form-d2d966fc88807e12ecf7b5bd1cf9aa8e"  />
                          <input type="hidden" name="form_id" id="edit-comment-form" value="comment_form"  />
                          <div class="form-item" id="edit-figaro-commentaires-email-wrapper"> 
                            <label for="edit-figaro-commentaires-email">e-mail*: 
                              <span class="form-required" title="Ce champ est obligatoire.">*
                              </span>
                            </label> 
                            <input type="text" maxlength="128" name="figaro_commentaires_email" id="edit-figaro-commentaires-email" size="60" value="" class="form-text required" />
                          </div>
                          <p>Votre email ne sera pas visible
                          </p>
                          <input type="submit" name="op" id="edit-publish" value="Valider"  class="form-submit" />
                        </div>
                      </form>
                    </div>
                  </div><h2>Réactions</h2>   
                  <span class="field-flag_jaime">          
                    <span class="field-prefix-jaime">2 personnes ont aimé cet article
                    </span>        
                    <span id="span-jaime" class="field-flag_jaime-message">    
                      <a href="http://plus.lefigaro.fr/flags/jaime/341246?destination=article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires" class="jaime jaimelogged" title="J'aime">J'aime</a>
                      <a href="http://plus.lefigaro.fr/user/login?destination=article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires" class="popups-form-reload jaime jaimenotlogged">J'aime</a>          (
                      <span class="highlight">2
                      </span>)       
                    </span>
                  </span>
                  <a id="comment-4529261"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/paul-56-22-345321" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/avatar_selection/avatar-28.jpg" alt="Avatar" title="avatar de paul 56-22"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/paul-56-22-345321" title="La page de paul 56-22" class="user">paul 56-22</a>regardez   la police Brésilienne  exécution immédiate des  pourris  et pas  de parlottes stériles donc inutiles     
                    <div class="timestamp">Le 3/12/2010 à 12:34    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4529261/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4529261">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <a id="comment-4529217"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/depresle" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/pictures/picture-9451-5qgt28z.jpg" alt="Avatar" title="avatar de depresle"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/depresle" title="La page de depresle" class="user">depresle</a>Si au lieu de se polariser dans des batailles d'égos pour accéder au pouvoir et de rassembler toutes leurs forces, leur énergie, leurs cellules grises, leurs réseaux en vue de la présidentielle...nos politiques faisaient consensus....une fois...pour combattre sérieusement le fléaut de la grande délinquence, si les juges laissaient leur laxisme idéologique à la maison, si nos pauvres forces de l'ordre étaient davantage soutenues .....on n'en serait certainement pas là!!....Et si rien ne vient à changer dans la défense de droit de notre démocratie que deviendra le pauvre pays?!....     
                    <div class="timestamp">Le 3/12/2010 à 12:29    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4529217/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4529217">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <a id="comment-4528750"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/jeanma86001-34063" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/avatar_selection/avatar-36.jpg" alt="Avatar" title="avatar de jeanma86001"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/jeanma86001-34063" title="La page de jeanma86001" class="user">jeanma86001</a> Trois personnes ont été interpellés vendredi matin. Ils seront libérés après demain : voir l'autre article sur la libération &quot;par erreur&quot;.    
                    <div class="timestamp">Le 3/12/2010 à 11:43    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4528750/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4528750">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <a id="comment-4528723"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/tsuper-188715" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/images/188715.jpg" alt="Avatar" title="avatar de Tsuper"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/tsuper-188715" title="La page de Tsuper" class="user">Tsuper</a>Le gentil voleur, dealer, braqueur, victime de la société, pourchassé par de très méchants policiers à la solde d'un gouvernement incompétent ...voilà la belle histoire partagée par bien des français (cf les réactions ici). Tant que ces &quot;croyances&quot; règneront, il sera difficile d'apporter de sérieux changements.     
                    <div class="timestamp">Le 3/12/2010 à 11:41    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4528723/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4528723">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <a id="comment-4528605"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/pa4033-438323" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/pictures/picture-57179.jpg" alt="Avatar" title="avatar de pa4033"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/pa4033-438323" title="La page de pa4033" class="user">pa4033</a>Confions l'injustice à la justice ou l'inverse,je ne sais plus!                                               Paul    
                    <div class="timestamp">Le 3/12/2010 à 11:30    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4528605/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4528605">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <a id="comment-4528597"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/djurdjuralr-437382" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/avatar_selection/avatar-06.jpg" alt="Avatar" title="avatar de DjurdjuraLR"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/djurdjuralr-437382" title="La page de DjurdjuraLR" class="user">DjurdjuraLR</a>J'aime bien les guillemets de &quot;délibéremment&quot; ... On se croirait chez Libé !!!    
                    <div class="timestamp">Le 3/12/2010 à 11:30    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4528597/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4528597">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <a id="comment-4528517"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/whygreedy-254871" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/avatar_selection/avatar-07.jpg" alt="Avatar" title="avatar de whygreedy"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/whygreedy-254871" title="La page de whygreedy" class="user">whygreedy</a>Humour Auvergnat:&quot; Il faut attendre le résultat de l'enquête pour savoir qui du policier ou de l'automobiliste a foncé sur qui! En effet rien ne prouve à l'heure actuelle que le Taser ait été utilisé avec l'intention de Taser!&quot;    
                    <div class="timestamp">Le 3/12/2010 à 11:23    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4528517/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4528517">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <a id="comment-4528502"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/pierre-lenoir" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/avatar_selection/avatar-11.jpg" alt="Avatar" title="avatar de Pierre4"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/pierre-lenoir" title="La page de Pierre4" class="user">Pierre4</a>Pas de communiqué du mrap-licra-sos machin-ldh-cfcm-npa-cran ? Ah ! oui, c'est vrai dans ce sens, pour eux c'est normal.............    
                    <div class="timestamp">Le 3/12/2010 à 11:22    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4528502/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4528502">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <a id="comment-4528489"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/le-sanglier-206442" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/pictures/picture-11322-5qm7gpg.jpg" alt="Avatar" title="avatar de Le Sanglier"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/le-sanglier-206442" title="La page de Le Sanglier" class="user">Le Sanglier</a>Pourquoi avoir mis le mot &quot;délibérément&quot; entre guillements? Vive le Pen, le Front au pouvoir en 2012, si nous ne voulons pas que la France disparaisse.    
                    <div class="timestamp">Le 3/12/2010 à 11:20    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4528489/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4528489">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <a id="comment-4528488"></a>
                  <div class="comment comment-published clear-block">
                    <a href="/page/pierre-lenoir" class="avatar">
                      <img src="http://plus.lefigaro.fr/sites/default/files/imagecache/X-small/avatar_selection/avatar-11.jpg" alt="Avatar" title="avatar de Pierre4"  class="imagecache imagecache-X-small" width="50" height="50" /></a>
                    <a href="http://plus.lefigaro.fr/page/pierre-lenoir" title="La page de Pierre4" class="user">Pierre4</a>On comprend mieux la dernière votation suisse.....    
                    <div class="timestamp">Le 3/12/2010 à 11:20    
                      <span class="lien-editer">
                      </span>    
                      <span class="lien-workflow">
                      </span>    
                      <span class="lien-alerter">
                        <a href="/figaro_workflow/comment/4528488/alerter">Alerter</a>
                      </span>    
                      <span class="lien-supprimer">
                      </span>    
                      <span class="lien-repondre">
                        <a href="/comment/reply/341246/4528488">Répondre</a>
                      </span>    
                    </div>  
                  </div>
                  <div class="item-list">
                    <ul class="pager comments-pager">
                      <li class="pager-current first">1
                      </li>
                      <li class="pager-item">
                        <a href="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires?page=1" title="Aller à la page 2" class="active">2</a>
                      </li>
                      <li class="pager-item">
                        <a href="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires?page=2" title="Aller à la page 3" class="active">3</a>
                      </li>
                      <li class="pager-item">
                        <a href="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires?page=3" title="Aller à la page 4" class="active">4</a>
                      </li>
                      <li class="pager-item">
                        <a href="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires?page=4" title="Aller à la page 5" class="active">5</a>
                      </li>
                      <li class="pager-item">
                        <a href="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires?page=5" title="Aller à la page 6" class="active">6</a>
                      </li>
                      <li class="pager-item">
                        <a href="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires?page=6" title="Aller à la page 7" class="active">7</a>
                      </li>
                      <li class="pager-item">
                        <a href="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires?page=7" title="Aller à la page 8" class="active">8</a>
                      </li>
                      <li class="pager-item">
                        <a href="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires?page=8" title="Aller à la page 9" class="active">9</a>
                      </li>
                      <li class="pager-ellipsis"></li>
                      <li class="pager-next last">
                        <a href="/article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires?page=1" title="Aller à la page suivante" class="active">suivant*›</a>
                      </li>
                    </ul>
                  </div>                      
                </div> 
                <!-- /content -->        
              </div> 
              <!-- /content-wrapper -->                  
              <div id="vitrine-wrapper">                      
                <div id="vitrine" class="column sidebar">              
                  <div id="block-figaro_contenttype-Vitrine_Ffw" class="block block-figaro_contenttype">  
                    <div class="content clearfix">    
    <script type='text/javascript'>ffw_displayVitrine();</script>  
                    </div>    
                  </div>            
                </div> 
                <!-- /vitrine -->                    
              </div> 
              <!-- /vitrine-wrapper -->               
            </div> 
            <!-- /container -->    
          </div> 
          <!-- /page -->    
          <div id="morris-wrapper">      
            <div id="morris">               
            </div> 
            <!-- /morris -->    
          </div> 
          <!-- /morris-wrapper -->  
        </div>
        <!-- #page-wrapper -->  
        <div class="pub-footer-wrapper">    
          <div class="pub-footer">
    <script type='text/javascript'>publicite('10994', '582', new Array(null, null, null, null));</script>
          </div>  
        </div>  
        <div id="footer-wrapper">          
    <script type="text/javascript">
                ffw_displayFooter();
              </script>  
        </div> 
        <!-- /footer-wrapper -->  
    <script type='text/javascript'>  var xtpage_prev = 'article::seine-saint-denis-un-policier-renverse-deliberement-20101203-341246::commentaires::article/seine-saint-denis-un-policier-renverse-deliberement-20101203-341246/commentaires';  xt_pagetype = 'article';  if (window.xtparam!=null) {    window.xtparam+='&ptype='+xt_pagetype;  } else {    xtparam = '&ptype='+xt_pagetype;  };  xt_an = '';  xt_ac = '';  if (window.xtparam!=null){    window.xtparam+='&ac='+xt_ac+'&an='+xt_an;    window.xtparam+='&ac='+xt_ac+'&an='+xt_an;  } else {    window.xtparam = '&ac='+xt_ac+'&an='+xt_an;  };  tnv = document;  xtsd = 'http://logc111';  xtsd = 'http://logc111';  xtsite = '411548';  xtn2 = '10';  xtpage = xtpage_prev;  xtdi = '';</script>
    <script type='text/javascript' src='http://www.lefigaro.fr/scripts/xiti/xtcore.js'></script>
        <div id="user_relationships_popup_form" class="user_relationships_ui_popup_form">
        </div>
      </body>
    </html>

    Certaines balises meta ne sont pas fermées, du coup, difficile pour un parseur de travailler.

  5. #5
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2010
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2010
    Messages : 8
    Points : 5
    Points
    5
    Par défaut
    [QUOTE=djibril;5632675]En téléchargeant le contenu de cette page et en le reformattant via un éditeur de texte, on s'aperçoit qu'il n'est pas valide.

    Hm hm...

    Lemonde a l'air très mal xml-isé mais
    - j'ai la même erreur avec tous les journaux (leparisien, le figaro...) et blogs rioufol...) dont le code XTHML a meilleure allure (ça ferme correctement les scopes, etc.)
    - le valideur de XML du W3 trouve de nombreuses erreurs sur tous.

    J'aimeris pouvoir utiliser Twig.
    (Je corresponds un peu avec Michael Rodriguez).
    Puisque Twig procède d'abord suivant une approche Sax en ensuite seulement suivant une approche DOM, il devrait être tout terrain, non ?

    Sinon, cuisine plus indigeste avec les autres modules.

    Au fait, l'erreur indiquée est sur XML:arse.pm, pas sur ce qui est spécifique à Twig.

    (edit: mignon le smiliie automatique, pour XML :: Parse.pm)

  6. #6
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    La validation du XML dpuis XML::Twig se fait via XML::Parser. De toute façon, je ne vois pas comment parser proprement un XML non valide.

    Si tu n'as pas beaucoup d'info à récupérer, tu peux utiliser des regex, mais si c'est la pire des méthodes

  7. #7
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2010
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2010
    Messages : 8
    Points : 5
    Points
    5
    Par défaut
    Citation Envoyé par djibril Voir le message
    La validation du XML dpuis XML::Twig se fait via XML::Parser. De toute façon, je ne vois pas comment parser proprement un XML non valide.

    Si tu n'as pas beaucoup d'info à récupérer, tu peux utiliser des regex, mais si c'est la pire des méthodes


    a) le nettoyer par http://www.w3.org/People/Raggett/tidy/
    mais c'est intrusif
    b) découper par regexp la zone de commentaires en supposant qu'elle, elle est propre (pusiqu'elle a une structure assez simple); et la rhabiller en XHTML valide en la réencadrant par en-tête, <head> etc., <body> etc.
    c) ou la découper par du sax

    Il est quand même bizarre qu'avec la pratique les sites de journaux ou de blogs ne soient pas conformes.

    Beaucoup de gens ont dû plancher là-dessus, non ?

  8. #8
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Sinon utilise le module HTML::Parser.

  9. #9
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2010
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2010
    Messages : 8
    Points : 5
    Points
    5
    Par défaut
    Citation Envoyé par djibril Voir le message
    Sinon utilise le module HTML:arser.
    ou plus élaboré (j'explore):
    scrappy
    treebuilder
    text::scraper
    www::scraper

    Quelqu'un connaît ?

Discussions similaires

  1. Parse error à cause d'un tag <?xml
    Par genova dans le forum Langage
    Réponses: 2
    Dernier message: 10/09/2006, 17h00
  2. [VB6>VB.NET] Comment coder "break on all errors"
    Par RiiiDD dans le forum VB.NET
    Réponses: 5
    Dernier message: 07/03/2006, 12h53
  3. XML Parsing Error: not well-formed
    Par localhost dans le forum Valider
    Réponses: 5
    Dernier message: 16/06/2005, 14h20

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo