Bonjour à tous
Je suis en première année de master linguistique appliquée aux sciences et technologies de l'information et de la communication. J'ai commencé à travailler sur le langage python ce semestre. Notre professeur nous a demandé de créer un programme qui déterminera toute notre moyenne finale.
Mais ça fait des jours que je suis dessus et que je n'y arrive vraiment pas. Si quelqu'un peut m'aider ça serait vraiment cool je suis désespérée ...
Alors, voila l'exercice :
C'est un fichier plein de phrases comme ceci dont l'ordre des éléments varient :
Exemple :
Culture.txt|5|c'est-à-dire|En effet, le gouvernement a annoncé <NP1>l'extension de la convention collective</NP1> pour le 1er juillet - <MDR>c'est-à-dire</MDR> <NP2 rel_lex="syn(extension/application à l'ensemble de)" modif_lex="remplacement(la convention collective/son)" rel_pragm="prec">son application à l'ensemble de la profession</NP2>
et elle veut qu'on transfère le tout dans un autre fichier en remplaçant certaines choses :
Culture.txt|5|c'est-à-dire|l'extension de la convention collective/son application à l'ensemble de la profession|NP1/NP2(contenu des balises)|5/7(nombre de mots avant le slach/ nombre de mots après le slach)
J'ai trouvé comment supprimé les balises : re.sub('\<\/?[A-Z0-9]+\>'," ",texte)
Comment écrire aussi dans l'autre fichier en remplaçant : fi.write(re.sub(chaine2," ",chaine))
Mais le soucis, c'est que je ne voit pas comment réussir à effacer le texte avant la balise sans effacer celui en début de ligne étant donné que ce n'est que du texte qu'il n'y a rien qui le différencie. Je me suis demandé si on pouvait mémoriser des endroits de l'expression mais je ne trouve rien sur internet je ne comprends pas la syntaxe à mettre en place. Puis pour extraire les contenu des balises tout en comptant le nombre de mots de chaque contenu je ne vois vraiment pas.
Please help me :'(
Partager