Bonjour à tous,

actuellement j'essaie de créer un méthode qui permettrait en Python de prédire le lien entre 2 mots-clés d'une phrase données, à partir de phrases de références où l'on connait déjà les liens. C'est à dire, grosso modo utiliser du Machine Learning et/ou Text Mining.
J'ai déjà regardé pas mal de fois, et je sais qu'il existe des librairies telles Wor2vec, TfidfVectorizer, etc en pour du TextMining permettant de faire du calcul de similarite, clustering, ... entre les phrases. Egalement, la thérorie des graphes permet de gerer les liens entre les noeuds du dit graphe etc etc.

Cependant, je n'arrive jamais a trouver quelque chose qui existe déjà, car les approches de ML appliquées au TM ne prédisent jamais le lien entre les mots, mais entre des phrases/paragraphes. Par exemple voici des phrases de références qui pourraient servir à construire un modele :

(1) ... A1 ..... B1 ..... A2 ..... B2 ..... C2 ....
(2) ... A1 ..... B1......B2 ..... B3 .... C1 ..... C2 .....
...
(p) ....C1 .... B1 .... A1. .. A2....

où dans chaque phrase je sais que les A_i sont liés avec les B_i, C_i (prennons cet exemple très simple).

Si je donne une nouvelle phrase où je souhaite connaitre les liens entre les mots-clés (que je sais identifier par du text-mining), quelles approche puis je utiliser pour predire les liens entre ces differens mots clés ?
Je ne sais pas si mon explication est claire, mais je pourrai résumer par le fait à partir d'un model construit utilisant un corpus de phrases, je predise (pour de nouvelles phrases) le lien entre les mots selon sa structure interne !

Merci d'avance