Bonjour,
Je souhaiterais a partir d"une page xhtml qui contient des liens vers tout un tas de package, écrire un script python qui me permette de construire une liste triée de la forme
NOM_PACKAGE_1 URL_PACKAGE_1.
NOM_PACKAGE_2 URL_PACKAGE_2
Par exemple mon xhtml ressemble a ca :
dload filename { url: 'http://downloads.sourceforge.net/project/mingw/GCC%20Version%204/Current%20Release_%20gcc-4.4.0/gcc-4.4.0-src.tar.bz2' }"
href="/projects/mingw/files/GCC%20Version%204/Current%20Release_%20gcc-4.4.0/gcc-4.4.0-src.tar.bz2/download"
title="/GCC Version 4/Current Release_ gcc-4.4.0/gcc-4.4.0-src.tar.bz2: released on 2009-06-23"
>gcc-4.4.0-src.tar.bz2</a>
</td>
<td class="platform">
</td>
<td>62.7 MB</td>
<td>2009-06-23</td>
<td>3,274</td>
<td>
<a href="http://sourceforge.net/project/shownotes.php?release_id=691876" class="icon-sm notes-sm" title="Release Notes">Release Notes</a>
</td>
</tr>
<tr id="node-775-2" class="child-of-node-753-1">
<td class="tree">
<a class="
ext_jar
dload filename { url: 'http://downloads.sourceforge.net/project/mingw/GCC%20Version%204/Current%20Release_%20gcc-4.4.0/ecj-20080701-src.jar' }"
href="/projects/mingw/files/GCC%20Version%204/Current%20Release_%20gcc-4.4.0/ecj-20080701-src.jar/download"
title="/GCC Version 4/Current Release_ gcc-4.4.0/ecj-20080701-src.jar: released on 2009-06-23"
>ecj-20080701-src.jar</a>
et je veux obtenir :
ecj-20080701-src.jar http://downloads.sourceforge.net/pro...080701-src.jar
gcc-4.4.0-src.tar.bz2 http://downloads.sourceforge.net/pro....0-src.tar.bz2
ca implique de détecter dload filename { url:'URL_PACKAGE' }"
et d'extraire URL_PACKAGE puis ensuite d'aller jusqu'au
>NOM_PACKAGE<.
Si vous savez faire ca faites moi signes...
L'idée est de pouvoir lister les packages disponibles au téléchargement sur le site http://sourceforge.net/projects/mingw/files/.
Rémunération possible par paypal ou rentacoder ...
Partager