Numérisation de documents et LAD
Numériser des documents est indispensable pour faire l’acquisition numérique des infos, sécuriser les archives et documents de travail. La numérisation permet aussi un échange d’informations par voie électronique. Ici nous allons aborder le principe de fonctionnement de la LAD, qu’est ce que l’OCR ? Comment fonctionne la RAD ?
Qu’est ce que la LAD ?
La lecture automatique de documents ou LAD est un ensemble de technologie ayant pour but d’extraire de manière automatisée différentes informations contenues dans un document numérisé, structuré ou non.
Définition et fonctionnement de la LAD : la LAD regroupe trois technologies indispensables à son fonctionnement :
- La RAD : reconnaissance automatique de documents
- L’OCR : reconnaissance optique des caractères
- L’IRC : reconnaissance intelligente de caractères
La lecture automatique de documents (LAD) fonctionne généralement sur le schéma suivant :
- Le document à traiter est numérisé à l’aide d’un scanner.
- L’application LAD va alors lancer un module dit RAD ou reconnaissance automatique de documents.
- L’application LAD lance le module OCR pour la reconnaissance optique des caractères.
Comment fonctionne la RAD ?
La technologie RAD consiste à reconnaitre le type du document à traiter. Ainsi après avoir analysé la mise en page du document comme l’emplacement d’image, d’encadré, le module RAD la compare à des modèles issus de sa base de données. Ceci afin de déterminer s’il s’agit d’un devis, d’une facture, une commande ou tout autre document.
Selon la nature du document, l’utilisateur pourra vouloir y extraire différentes informations. Dès lors l’application LAD lance le module OCR (reconnaissance optique des caractères).
Comment fonctionne l’OCR ?
Le principe d’une technologie OCR est de lire le document pour détecter les formes, puis les comparer à des bibliothèques de formes pour en faire correspondre un caractère. Si des erreurs surviennent lors de la reconnaissance d’un caractère, l’OCR compare alors le mot entier au contenu de son dictionnaire intégré pour en déduire l’équivalence la plus proche et ainsi corriger le caractère mal lu. Ainsi le texte pourra alors être segmenté selon l’information recherché.
Dans le cas d’un document manuscrit, l’application LAD favorisera la technologie ICR (reconnaissance intelligente de caractères) plutôt que l’OCR.
Comment fonctionne l’IRC ?
Définition IRC : reconnaissance intelligente de caractères
L’IRC intègre la reconnaissance de caractères manuscrits.
Pour cela, le moteur de l’IRC est équipé d’un mécanisme mémorisant les nouveaux caractères permettant ainsi d’améliorer les performances de reconnaissances lors des lectures suivantes. Ainsi si le moteur ICR arrive difficilement à identifier un « A », il est possible de lui apprendre que c’est bel et bien un « A ». Dès lors il pourra reconnaitre les matrices potentielles grâce à sa base de caractère enrichie par l’apprentissage.
Ceci peut être fait pour toutes les lettres de l’alphabet, ainsi tous les styles calligraphiques (même les plus maladroits) peuvent être reconnus.
Indexation des données numérisées et stockage par la GED
Numérisées, reconnues, toutes les informations ainsi obtenues seront alors soit
– archivées
– soit insérées dans une base de données
– soit transmises à un système GED ou GEID.
Ainsi la LAD s’impose comme une technologie incontournable dans la Gestion électronique des documents.
La saisie manuelle peut désormais être contournée. L’information est dés lors moins différée, et automatiquement indexée lors de sa transmission à un système GED.
L’information est donc plus structurée et son efficacité optimisée pour l’ensemble des utilisateurs et applications requérantes.