Bonjour,
Je cherche de l'information concernant l'extraction de données (Zip Code USA, Code postal Canadien, etc.) avec Apache-UIMA. Nous utilisons Nutch comme "aspirateur de sites" et Hadoop pour gérer notre cluster d'ordinateurs.
Il s'agit "simplement" de passer UIMA (regex) sur les pages aspirées par nutch et ensuite d'en extraire quelques infos (CodePostal, ZipCode, Tél.) de ces pages. Dois-je faire un plug-in pour nutch? Comment passer UIMA sur le cluster Hadoop (solution privilégiée)? etc....
Je cherche de l'info sur internet depuis 2 semaines et je suis maintenant au bord du désespoir...
Avez-vous des suggestions de sites, tutoriels, partage d'expériences, etc
Merci beaucoup et bonne journée!
zed
Partager