Les archives secrètes du Vatican vers la numérisation intelligente grâce à l’OCR
L’Intelligence Artificielle rend possible la reconnaissance des caractères manuscrits
Les Archives secrètes du Vatican sont l'une des plus grandes collections historiques au monde. Elles contiennent des fonds importants et variés provenant des Congrégations et des bureaux de la curie romaine, ainsi que des dépôts de familles patriciennes romaines et, depuis 1660, la correspondance de la Secrétairerie d’Etat. Les archives du Vatican abritent 53 miles linéaires de rayonnages datant de plus de 12 siècles qui comprennent également des pierres précieuses comme le taureau papal.
Mais ce très riche fond documentaire reste moins exploité donc quasi inutile à la communauté des chercheurs et étudiants du monde. En effet, seulement une très infime partie de ces archives est, à présent, numérisée et rendue consultable en ligne. La majeure partie des archives ne restant consultable qu’en se rendant au Vatican sur demande d’accès spécial.
Mais depuis lors, In Codice Ratio, un projet initié par quatre chercheurs : Paolo Merialdo, Donatella Firmani, Elena Nieddu et Marco Maiorino tend à renverser la situation avec leur procédé de segmentation « Scie sauteuse ». Leur innovation utilise une combinaison de l’intelligence artificielle et du logiciel de reconnaissance de caractères (OCR en anglais Optical Character Recognition) pour parcourir ces textes manuscrits afin de rendre leurs transcriptions disponibles pour la toute première fois.
Le but de ce projet de recherche est de développer de nouvelles méthodes et des outils pour soutenir l'analyse de contenu et la découverte des connaissances à partir de grandes collections de documents historiques et la cible principale est la collection des archives du Vatican.
In Codice Ratio
En effet, l’OCR a été conçu pour numériser des livres et d'autres documents imprimés, mais il n'est pas bien adapté pour les documents manuscrits. Traditionnellement, il casse les mots et compare les lettres-images à une banque de lettres en mémoire. Une fois les correspondances sont trouvées, le texte est rendu consultable.
Ce procédé ne fonctionnant pas avec les documents manuscrits, les chercheurs ont associé à l’OCR, l’intelligence artificielle ainsi que des érudits en latin et des étudiants pour la reconnaissance des caractères latins ainsi que de faux caractères (faux amis pour des mauvaises écritures de mots) correspondants.
Après une série de recherches et de résultats intermédiaires, le projet a abouti à un système à part entière pour la transcription automatiquement du contenu des manuscrits, selon theatlantic.
Après ces derniers résultats obtenus, un test a été fait, avec le projet, sur 18 000 pages des archives secrètes du Vatican afin de vérifier ses possibilités. Mais les résultats obtenus sont mitigés, selon theatlantic. Un tiers des mots contenait des erreurs qui portaient essentiellement sur les lettres m, n et i. Cependant, le logiciel a reconnu 96 % du total des caractères concernés par le test.
Cependant, les résultats préliminaires sont encourageants grâce au logiciel OCR amélioré. En outre, comme tout projet impliquant l’intelligence artificielle, des améliorations sont en cours qui pourraient permettre de parvenir à une excellente transcription. En cas de succès, la technologie pourrait, également, rendre accessible un nombre incalculable d'autres documents dans les archives historiques du monde entier.
Source : theatlantic, inf.uniroma3
Et vous ?
Que pensez-vous de ce projet qui réunit l’OCR et l’intelligence artificielle ?
Selon vous, quelle sera la portée du logiciel OCR définitif si les résultats sont concluants ?
Voire aussi
L'intelligence artificielle est-elle l'arme de la prochaine guerre froide ? Oui, répond un chercheur en informatique
Des experts prédisent que l'IA va dominer les humains dans moins de 50 ans, selon une étude menée par les deux universités Harvard et Yale
Partager