Guide to Optical Character Recognition

nov. 18, 2020

Vous ne le savez peut-être pas, mais vous jouez un rôle essentiel en aidant les experts à déchiffrer des textes historiques anciens, voire très anciens. Chaque fois que vous remplissez un Captcha sur un site Web pour prouver que vous êtes humain, vous contribuez à ce précieux projet. De plus, vous participez à une technologie moderne de conversion de texte appelée reconnaissance optique de caractères (OCR). Mais qu'est-ce que l'OCR ? Quels autres rôles cachés joue-t-elle dans votre vie ? Voici ce que vous devez savoir sur cette technologie de pointe essentielle.

La reconnaissance optique des caractères est une technologie de pointe qui renforce des dizaines d'outils que vous utilisez tous les jours. En termes simples, il s'agit d'un type de logiciel qui « traduit » les documents numérisés dans un format que votre ordinateur peut lire.

Sans OCR, votre ordinateur perçoit chaque document que vous numérisez comme une simple image, de la même manière que nous voyons des photographies ou des œuvres d'art. Dans ce format, votre ordinateur ne peut pas reconnaître les lettres, les mots ou les phrases. Cela limite les possibilités d'interaction de votre ordinateur, et donc de vous-même et des autres utilisateurs, avec le document.

Le logiciel de numérisation avec OCR permet à votre ordinateur de « voir » un document numérisé de la même manière qu'il voit les documents texte que vous pouvez créer dans Word, Excel ou des programmes équivalents. Cela permet à votre ordinateur, et par conséquent à vous-même, de traiter les documents numérisés de la même manière que des documents numériques originaux. Les encres suivantes sont prises en charge :

  • Utilisation des fonctions de recherche
  • Modification
  • Utiliser des outils de comparaison et d'analyse
  • Traitement, stockage, récupération et partage des informations

La reconnaissance optique des caractères peut être utilisée pour traduire du texte imprimé. Elle se compose de deux processus connexes conçus pour capturer l'écriture manuscrite et les données marquées par l'homme :

  • Reconnaissance intelligente des caractères (ICR) : Processus de capture et de traduction des caractères imprimés à la main ou écrits, par exemple sur des formulaires structurés
  • Reconnaissance optique des repères (OMR) : Processus de capture de données marquées par l'homme à partir de formulaires tels que des enquêtes à choix multiples, des questionnaires et des tests, sous la forme de lignes ou de zones ombrées

Ensemble, ces solutions logicielles de reconnaissance sont utiles dans un large éventail d'applications et de situations.

Comment fonctionne l'OCR

1. Amélioration
Pour aider le logiciel d'OCR à traduire un document avec succès, un logiciel d'amélioration de l'image tel que la technologie Perfect Page de Kodak Alaris, leader sur le marché, va d'abord « nettoyer » vos numérisations pour réduire les bruits inutiles sur un document et amplifier les données. Plus l'image est propre, plus la traduction est précise et de bonne qualité. C'est pourquoi la technologie Perfect Page recherche et corrige automatiquement les erreurs ou les problèmes de numérisation et de document les plus courants, tels que :

  • Ajustement des numérisations de travers ou en biais
  • Suppression des taches, lignes et autres imperfections d'impression depuis la « vue » de l'ordinateur
  • Compensation des taches et d'autres imperfections non imprimées sur la page
  • Analyse de la disposition des colonnes, des images, des tableaux et d'autres éléments

La technologie Perfect Page est intégrée au portefeuille de scanners Kodak Alaris pour optimiser la clarté des données et la précision de l'OCR, tout en créant des fichiers de taille aussi réduite que possible. Par conséquent, les scanners Kodak Alaris offrent un taux de lecture par OCR de 20 à 70 % supérieur* à celui de la concurrence et créent des fichiers dont la taille est presque deux fois moins importante que celle des appareils concurrents.

2. Classification
Une fois que les données sont converties et améliorées, l'étape suivante du processus d'OCR consiste à comprendre quel type de document est entré dans le système et à déterminer l'étape suivante pour ce type de document.

L'OCR, l'ICR et l'OMR permettent aux logiciels de capture comme Kodak Capture Pro et Kodak Solution Info Input de déterminer quel type de document a été ingéré. Le logiciel peut ensuite prendre les images et appliquer des règles de classification basées sur le contenu du document, sa présentation, des codes-barres ou des données d'indexation.

La classification déterminera si un document est, par exemple, une facture, un dossier de patient, un dossier de prêt ou un dossier fiscal. Et notre Solution Info Input peut effectuer une capture avancée de documents avec seulement un ou deux échantillons pour « apprendre » à classer les documents.

Kodak Alaris y parvient grâce à des algorithmes brevetés d'apprentissage machine. Le système utilise diverses techniques pour classer les données : recherche de contenu, d'images, de codes-barres et fusion d'un document. Si le système n'a pas confiance dans un document qu'il tente de classer, le processus peut faire appel à un opérateur humain pour confirmation – tout comme nous sommes appelés à vérifier les textes anciens que les ordinateurs ne peuvent pas déchiffrer en utilisant Captcha.

3. Extraction des données
La dernière étape du processus d'OCR est l'extraction des données.

Il est vital à la récupération et au traitement d'extraire les informations les plus importantes de ce document pour les utiliser comme métadonnées ou données d'index. La classification automatisée basée sur des règles indique au système quelles informations clés doivent exister dans un document, et souvent où ces informations doivent se trouver.

Les solutions logicielles de Kodak Alaris peuvent identifier le texte de votre document en utilisant la reconnaissance des formes et des caractéristiques. Elles identifient la langue du document numérisé et trient le texte en lettres, mots, phrases et paragraphes individuels.

Ensuite, le logiciel extrait ces informations et en crée une copie afin de les utiliser comme métadonnées pour la phase suivante du processus. Dans le cas des documents, les métadonnées peuvent être utilisées pour organiser, trouver et/ou alimenter des documents dans un autre type de système métier.

Grâce à ces solutions, vous pouvez extraire les données en fonction des règles de gestion et des informations dont une entreprise a besoin en consultant les bases de données. Les utilisateurs peuvent configurer le processus d'indexation afin d'extraire de manière automatique les données essentielles provenant de documents (via code-barres, OCR, ICR ou OMR), permettant ainsi la réduction des délais de traitement

Pourquoi l'OCR est importante

La technologie d'OCR offre de nombreux avantages, tant dans la sphère personnelle que professionnelle. Les logiciels de reconnaissance optique des caractères permettent de traduire du texte imprimé à partir de presque tous les supports et de :

    Rechercher vos documents, y compris les copies numérisées de livres épuisés et d'autres textes
  • Analyser, éditer et comparer des documents numérisés rapidement et avec précision
  • Partager des informations que vous ne pourriez pas partager autrement
  • Appliquer un logiciel de synthèse vocale aux documents numérisés, afin de les rendre accessibles à des publics qui ne pourraient pas les lire autrement
  • Stocker les documents sous des formes plus compactes et conserver des sauvegardes numériques peu coûteuses des documents importants
  • Traiter les documents numériquement en temps réel à des fins de sécurité et d'authentification
  • Réduire la nécessité d'une saisie des données longue et sujette aux erreurs sur le lieu de travail
  • Télécharger des documents historiques vers des bases de données généalogiques consultables en ligne

Que vous en soyez conscient ou non, vous utilisez plusieurs de ces fonctionnalités chaque jour. Vous bénéficiez également de l'utilisation par d'autres personnes et organisations. Par exemple, l'utilisation par la police de la technologie OCR pour identifier les plaques d'immatriculation aide à assurer notre sécurité. L'utilisation par les banques de la reconnaissance des signatures numériques, une forme d'OCR, empêche les voleurs d'identité potentiels d'accéder à votre argent et de le dépenser.

Les prestataires de services de divers secteurs peuvent vous offrir de meilleurs prix et un service plus rapide parce qu'ils sont en mesure d'utiliser l'OCR pour numériser, télécharger, comparer et modifier les contrats au lieu de payer du personnel pour effectuer chacune de ces tâches. Chaque fois que vous utilisez une application telle que Google Translate pour traduire un panneau ou une étiquette lors d'un voyage, vous utilisez l'OCR.

OCR sur le lieu de travail

L'OCR peut être particulièrement utile sur le lieu de travail. Par exemple, les entreprises peuvent numériser des documents existants à l'aide d'un logiciel d'OCR et les transformer instantanément dans des formats compatibles avec les programmes de synthèse vocale.

Ceci peut aider les entreprises à se conformer aux normes de l'ADA sans qu'il soit nécessaire d'y consacrer des années de travail et des sommes considérables en termes d'argent et d'heures de travail. Les entreprises peuvent également répondre aux besoins des clients malvoyants en temps réel.

Dans d'autres secteurs, comme celui de la santé, la technologie OCR peut littéralement sauver des vies. Un logiciel de numérisation pour l'OCR peut rendre l'énorme quantité d'informations contenues dans le dossier médical d'un patient enregistrable, consultable et vérifiable de manière à améliorer l'accessibilité et à prévenir les erreurs dangereuses.

Kodak Alaris et OCR

Kodak Alaris comprend le rôle essentiel que joue l'OCR dans la numérisation de vos documents, qu'ils soient personnels ou professionnels. C'est pourquoi nous fournissons un logiciel d'OCR gratuit et avancé avec chaque scanner.

Nos scanners sont conçus pour s'intégrer de manière transparente à vos autres outils numériques. Qu'il s'agisse d'appareils intelligents, d'applications ou de vieilles ressources comme les e-mails, nos programmes fonctionnent avec toutes vos infrastructures numériques. Nous facilitons le déplacement, le stockage et le partage des informations, peu importe le la manière et le lieu d'entrée dans votre système.

Le logiciel de numérisation avec OCR de Kodak Alaris a aidé nos clients à :

  • Développer leurs activités
  • Innover
  • Économiser de l'argent
  • Amélioration de l'efficacité
  • Améliorer le service et le taux de satisfaction des clients
  • Minimiser leur empreinte écologique

Notre technologie bénéficie de notre programme d'assistance technique de premier ordre, qui vous permet de tirer le meilleur parti de votre achat à chaque utilisation. Que vous soyez intéressé par Kodak Alaris pour des applications personnelles ou professionnelles, nous avons le matériel, les logiciels et les solutions d'assistance qu'il vous faut.

Voir aussi : Comment Alaris innove dans la technologie de numérisation

En savoir plus

Le logiciel de reconnaissance optique des caractères de Kodak Alaris fait passer votre numérisation du stade de base à celui de l'excellence. Visitez un revendeur partenaire local pour en savoir plus sur ce que les logiciels et les scanners de Kodak Alaris peuvent vous offrir aujourd'hui.

*Basé sur des tests effectués par BLI et commandés par Kodak Alaris. Le test a été conçu par Kodak Alaris, tous les appareils étant testés dans des conditions opérationnelles similaires et avec des méthodes opérationnelles similaires.

Related solutions

Alaris Capture Pro

Capture Pro Software

  • Idéal pour les applications métiers gourmandes en papier
  • Intégration complète avec les systèmes ECM
  • Modules réseau et importation disponibles
smart touch

Technologie Smart Touch

  • Remplace la complexité des processus de numérisations à plusieurs étapes par la simplicité d'une fonction en une touche
  • Configurez jusqu'à vingt fonctions différentes pour répondre à vos besoins spécifiques de numérisation
  • Scannez facilement un document vers un emplacement de fichier ou des services communs sur le Cloud

Contacter

Pour nous contacter, remplissez notre formulaire de demande d'informations ci-dessous et nous vous contacterons sous peu.

Voir la politique de confidentialité de Kodak Alaris