Bonjour, je fais de l'arabe depuis deux ans et j'aimerais maintenant constituer un petit corpus de textes(surtout journalistiques).Mon but serais d' extraire le texte des pages web du site d' aljazeera (www.aljazeera.net) par exemple, à l'aide d'un script en Perl, malheureusement je ne trouve aucun tutoriel à ce sujet.C' est pourquoi je sollicite votre aide, si qqun dipose d'un tutoriel ou d'un script j'en serais très ravis.
D'avance merci.
Partager