Problème de récupération d'une chaine.

**Thom'Web** · 30/03/2010, 13h26

Bonjour,

je souhaite retirer dans ma chaine de caractère tous les height et width et les remplacer par un espace ou les supprimer directement, j'ai pensé tous de suite à str_replace, mais le souci c'est que mon height à une valeur différente à chaque fois, je n'ai jamais vu ça en php, mais sur le net il parle du (.*) pour récupérer les valeurs qui sont entre deux caractères, mais j'ai essayé et sans succès.

Si quelqu'un à une solution je suis preneur.

Bonne journée à vous et merci encore

**asdf007** · 30/03/2010, 13h30

Pour manipuler du HTML :
http://simplehtmldom.sourceforge.net

L'exemple est dans le manuel :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
// Remove a attribute, set it's value as null!
$e->href = null;

**Thom'Web** · 30/03/2010, 13h36

c'est vraiment tu traitement pur et dur, mon code HTML est dans une chaine de caractère, et je souhaite juste virer tous les height qui traine dedans et je pensais qu'avec le str_replace est un bout de code que je connai pas on aurai pu retirer tous les height et les remplacer par un espace.

Ta librairie j'ai beau essayer de regarder la page j'y comprend pas grand choses

**asdf007** · 30/03/2010, 14h27

Envoyé par Thom'Web

c'est vraiment tu traitement pur et dur, mon code HTML est dans une chaine de caractère, et je souhaite juste virer tous les height qui traine dedans et je pensais qu'avec le str_replace est un bout de code que je connai pas on aurai pu retirer tous les height et les remplacer par un espace.

Ta librairie j'ai beau essayer de regarder la page j'y comprend pas grand choses

C'est très basique, mais voici quelques pistes :
$html = str_get_html(tonhtml); // Récupère le DOM
$html->find('[height]') // Récupère tous les éléments qui ont un attribut height
etc.

**Thom'Web** · 30/03/2010, 15h00

c'est bon je viens de trouver ma solution, enfaite j'utilise les expression régulière

donc voici mon code a présent :
$text_height = ereg_replace('height="([0-9]+)"','',$text);

et sa marche niquel.

Merci quand même pour votre aide

**asdf007** · 30/03/2010, 15h47

Envoyé par Thom'Web

c'est bon je viens de trouver ma solution, enfaite j'utilise les expression régulière

donc voici mon code a présent :
$text_height = ereg_replace('height="([0-9]+)"','',$text);

et sa marche niquel.

Merci quand même pour votre aide

C'est crade, ceci dit... Et tu ne gères pas tous les cas.

**pc.bertineau** · 30/03/2010, 15h58

Effectivement tu ne gères pas les chaînes 'px', 'cm' etc après la valeur numérique. Mais si tu maîtrises le code html que tu modifies ça peut suffire.

D'autre part, SimpleHtmlDom peut être lourd en terme de ressource à l'utilisation...

**asdf007** · 30/03/2010, 16h20

Envoyé par pc.bertineau

Effectivement tu ne gères pas les chaînes 'px', 'cm' etc après la valeur numérique. Mais si tu maîtrises le code html que tu modifies ça peut suffire.

D'autre part, SimpleHtmlDom peut être lourd en terme de ressource à l'utilisation...

Bof, c'est vraiment tout léger et ça peut servir à plein de choses. Je l'intègre dans quasiment toutes mes applis web, et le code est 20 fois plus clean que si je fichais des tonnes de regexp. À moins de faire un site où les perfs doivent être au centième de seconde, ça vaut le coup amha.

**pc.bertineau** · 30/03/2010, 16h46

C'est pas le code de l librairie qui peut s'avérer lourd. En effet c'est un court fichier, j'étais étonné.

Mais charger en mémoire un gros fichier html peut vite bouffer de la ressource. Je parle pas tellement de la chaîne de caractères mais de la structure objet chargée...

**asdf007** · 30/03/2010, 17h43

Envoyé par pc.bertineau

C'est pas le code de l librairie qui peut s'avérer lourd. En effet c'est un court fichier, j'étais étonné.

Mais charger en mémoire un gros fichier html peut vite bouffer de la ressource. Je parle pas tellement de la chaîne de caractères mais de la structure objet chargée...

Euh ça chargerait seulement sa chaîne de caractères en mémoire, exactement comme un appel à preg_replace le ferait.

**pc.bertineau** · 31/03/2010, 14h23

Je ne cherche pas à dénigrer l'utilisation de librairie hein

Juste que si tu ne cherches qu'à faire un preg_replace parce que tu as la maîtrise de la chaîne à analyser tu n'as pas besoin de tout ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
// get html dom form string
function str_get_html($str, $lowercase=true) {
    $dom = new simple_html_dom;
    $dom->load($str, $lowercase);
    return $dom;
}

class simple_html_dom {
    public $root = null;
    public $nodes = array();
    public $callback = null;
    public $lowercase = false;
    protected $pos;
    protected $doc;
    protected $char;
    protected $size;
    protected $cursor;
    protected $parent;
    protected $noise = array();
    protected $token_blank = " \t\r\n";
    protected $token_equal = ' =/>';
    protected $token_slash = " />\r\n\t";
    protected $token_attr = ' >';
    // use isset instead of in_array, performance boost about 30%...
    protected $self_closing_tags = array('img'=>1, 'br'=>1, 'input'=>1, 'meta'=>1, 'link'=>1, 'hr'=>1, 'base'=>1, 'embed'=>1, 'spacer'=>1);
    protected $block_tags = array('root'=>1, 'body'=>1, 'form'=>1, 'div'=>1, 'span'=>1, 'table'=>1);
    protected $optional_closing_tags = array(
        'tr'=>array('tr'=>1, 'td'=>1, 'th'=>1),
        'th'=>array('th'=>1),
        'td'=>array('td'=>1),
        'li'=>array('li'=>1),
        'dt'=>array('dt'=>1, 'dd'=>1),
        'dd'=>array('dd'=>1, 'dt'=>1),
        'dl'=>array('dd'=>1, 'dt'=>1),
        'p'=>array('p'=>1),
        'nobr'=>array('nobr'=>1),
    );

    function __construct($str=null) {
        if ($str) {
            if (preg_match("/^http:\/\//i",$str) || is_file($str)) 
                $this->load_file($str); 
            else
                $this->load($str);
        }
    }

    function __destruct() {
        $this->clear();
    }

    // load html from string
    function load($str, $lowercase=true) {
        // prepare
        $this->prepare($str, $lowercase);
        // strip out comments
        $this->remove_noise("'<!--(.*?)-->'is");
        // strip out cdata
        $this->remove_noise("'<!\[CDATA\[(.*?)\]\]>'is", true);
        // strip out <style> tags
        $this->remove_noise("'<\s*style[^>]*[^/]>(.*?)<\s*/\s*style\s*>'is");
        $this->remove_noise("'<\s*style\s*>(.*?)<\s*/\s*style\s*>'is");
        // strip out <script> tags
        $this->remove_noise("'<\s*script[^>]*[^/]>(.*?)<\s*/\s*script\s*>'is");
        $this->remove_noise("'<\s*script\s*>(.*?)<\s*/\s*script\s*>'is");
        // strip out preformatted tags
        $this->remove_noise("'<\s*(?:code)[^>]*>(.*?)<\s*/\s*(?:code)\s*>'is");
        // strip out server side scripts
        $this->remove_noise("'(<\?)(.*?)(\?>)'s", true);
        // strip smarty scripts
        $this->remove_noise("'(\{\w)(.*?)(\})'s", true);

        // parsing
        while ($this->parse());
        // end
        $this->root->_[HDOM_INFO_END] = $this->cursor;
    }

    ...

    protected function remove_noise($pattern, $remove_tag=false) {
        $count = preg_match_all($pattern, $this->doc, $matches, PREG_SET_ORDER|PREG_OFFSET_CAPTURE);

        for ($i=$count-1; $i>-1; --$i) {
            $key = '___noise___'.sprintf('% 3d', count($this->noise)+100);
            $idx = ($remove_tag) ? 0 : 1;
            $this->noise[$key] = $matches[$i][$idx][0];
            $this->doc = substr_replace($this->doc, $key, $matches[$i][$idx][1], strlen($matches[$i][$idx][0]));
        }

        // reset the length of content
        $this->size = strlen($this->doc);
        if ($this->size>0) $this->char = $this->doc[0];
    }

    ...
}

**asdf007** · 31/03/2010, 14h49

Envoyé par pc.bertineau

Je ne cherche pas à dénigrer l'utilisation de librairie hein

La seule chose que je dis c'est qu'utiliser un parseur de HTML pour parser du HTML ça me paraît adapté.

Après ça dépend si c'est un besoin hyper isolé/simple (auquel cas pourquoi pas une regexp) ou quelque chose de plus complexe/fréquent.

Problème de récupération d'une chaine.

Langage PHP

Discussions similaires

Partager

Partager