Bonjour,
actuelement j'esseye d'implémter un prog qui lit le contenu d'une page html et copie le contenu sur un fichier TXT.
j'ai réussi a l'implémenté avec codage et encodage UTF-8,
le résultat (le contenu des fichier text) seront analysé par un autre logiciel .
selement voilà ce logiciel n'accepte que les fichier codé en utf-16.
j'ai utilisé le même programme que j'ai développé pour utf-8 en remplaçant .encode('utf8') et .decode ('utf8') par utf-16.(voir ci dessous)
mais lors de l'exécution il m'a généré des erreurs et n'a pas pu s'exécuter,
#C:/python27
# -*- coding: utf-16 -*-
def lire_ecrire_fichier_txt(url, name_file):
print "décut de l'éxécution"
htmlSource = urllib.urlopen(url).read().decode('utf-16')
text=htmlSource.lower().split('<p')[1:]
path = createFile(name_file)
f = open(path, "a")
title=htmlSource.lower().split('<title>')[1:]
for i in title:
if (i[:i.find('</title>')]!=-1):
txt= i[:i.find('</title>')]
text=enlever_balise(txt)
text=netoyer_text(text)
if text!= '':
f.write((text+'\n').encode('utf-16'))
for chunk in htmlSource.lower().split('<p')[1:]:
if(chunk.find('</p>')!=-1):
if chunk[0] != '<':
text= chunk[:chunk.find('</p>')]+"\n"
txt= chunk[:chunk.find('</p>')]+"\n"
text=enlever_balise(txt)
text=netoyer_text(text)
if text!= '':
f.write((text+'\n').encode('utf-16'))
f.close()
nb_token(path)
Partager