Tutorial

Comment effectuer une reconnaissance optique de caractères (OCR) sur un PDF numérisé et le rendre consultable

Découvrez le fonctionnement de la reconnaissance optique de caractères (OCR), les facteurs qui influencent sa précision et comment convertir un PDF numérisé en un document consultable et copiable-collable grâce à l'outil OCR basé sur navigateur de LuraPDF.

LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 8 min read

Un PDF numérisé est une photographie numérique d'un document. Les pages sont des images. Il est impossible de sélectionner du texte, de rechercher un mot, de copier une phrase ou d'utiliser un logiciel de traitement de texte. Pour la recherche d'informations, un PDF numérisé est donc, de fait, opaque.

La reconnaissance optique de caractères (OCR) résout ce problème en analysant les images et en créant une couche de texte superposée au contenu visuel. Résultat : un PDF identique à la numérisation originale, mais contenant une couche de texte invisible qui permet de sélectionner, de rechercher et de copier le texte.

Comment fonctionne la reconnaissance optique de caractères (OCR)

LuraPDF utilise Tesseract.js, la version compilée pour navigateur de Tesseract, l'un des moteurs OCR open source les plus précis, maintenu par Google et initialement développé par HP Labs. Tesseract utilise un modèle de réseau neuronal (basé sur LSTM) entraîné sur des millions de pages de documents dans des dizaines de langues.

Le pipeline OCR :

Rendu des pages : Chaque page PDF est rendue sous forme d’image canvas haute résolution (plus de 300 DPI pour une précision optimale).
Prétraitement : Amélioration de l’image — binarisation, réduction du bruit, redressement (redressement des scans pivotés)
Analyse de la mise en page : Détection des zones de texte, des colonnes, des tableaux et des éléments non textuels
Reconnaissance de caractères : Le réseau neuronal classe chaque caractère à partir de régions de texte segmentées.
Post-traitement : Évaluation par modèle de langage pour lever l’ambiguïté des caractères similaires (par exemple, « l » vs « 1 », « O » vs « 0 »).
Écriture PDF : Le texte reconnu est intégré sous forme de calque invisible positionné précisément au-dessus des caractères visuels correspondants.

C’est la couche de texte invisible qui rend le résultat consultable. L’apparence visuelle de la page reste celle de l’image numérisée originale : vous voyez exactement ce que vous avez numérisé, mais le texte sous-jacent est désormais lisible par machine.

Quels sont les facteurs qui influencent la précision de la reconnaissance optique de caractères (OCR) ?

La précision varie considérablement en fonction de la qualité des données d'entrée :

Résolution de numérisation

La résolution minimale pour une précision fiable est de 300 ppp. En dessous de 200 ppp, la reconnaissance des caractères se dégrade considérablement. Si vous numérisez des documents pour la reconnaissance optique de caractères (OCR), numérisez toujours à 300 ppp ou plus.

Les documents numérisés à 150 ppp ou moins doivent être numérisés à une résolution supérieure avant la reconnaissance optique de caractères (OCR). L'exécution d'une OCR sur des numérisations basse résolution produit de mauvais résultats, quelle que soit la qualité du moteur utilisé.

Qualité de la police et de l'impression

Texte imprimé (impression laser, livres composés) : précision de 98 à 99 % avec des originaux propres
Écriture manuscrite de haute qualité avec des caractères nets : 85–95 %
Texte pâle ou délavé : 80 à 95 % selon le contraste
Papier carbone : 60–85 %
Vieux journal / machine à écrire : 90–95 % avec des numérisations nettes
Écriture cursive : 40 à 70 % — le système de reconnaissance optique de caractères (OCR) par réseau neuronal a des difficultés avec l’écriture cursive.

Orientation de la page

Les pages fortement inclinées ou pivotées nuisent à la précision de la reconnaissance optique de caractères (OCR). La plupart des moteurs OCR, dont Tesseract, détectent et corrigent automatiquement les rotations mineures (jusqu'à environ 10 degrés). Les pages fortement pivotées doivent d'abord être corrigées manuellement à l'aide de la fonction Rotation PDF.

Langue

Tesseract prend en charge plus de 100 langues. L'outil OCR de LuraPDF détecte automatiquement l'anglais. Pour les documents en caractères non latins ou non en anglais, la sélection de la langue améliore considérablement la précision.

Comment effectuer une reconnaissance optique de caractères (OCR) sur un PDF avec LuraPDF

Ouvrez l'outil OCR : Accédez à LuraPDF OCR PDF
Téléversez le PDF numérisé : Glissez-déposez votre fichier.
Sélectionnez la langue (si ce n'est pas l'anglais) : Choisissez la langue principale du document
Cliquez sur « Lancer la reconnaissance optique de caractères » : le traitement s’effectue page par page dans votre navigateur. La durée varie selon la longueur du document ; la numérisation d’un document de 20 pages prend généralement entre 30 et 90 secondes sur un ordinateur récent.
Télécharger le PDF consultable : Le fichier PDF obtenu contient les images numérisées originales ainsi qu’une couche de texte intégrée.

Tester le résultat

Après la reconnaissance optique de caractères (OCR), vérifiez l'exactitude :

Sélectionner le texte sur la page — le texte doit être sélectionnable exactement au-dessus des caractères imprimés
Recherchez (Ctrl+F / Cmd+F) un mot courant ; il devrait être trouvé. Copiez un paragraphe et collez-le dans un éditeur de texte ; le résultat devrait être lisible.

Si la précision est médiocre, vérifiez d'abord la qualité du scan d'entrée avant d'essayer d'autres outils.

Quand exécuter la reconnaissance optique de caractères (OCR) avant les autres opérations

La reconnaissance optique de caractères (OCR) débloque des opérations LuraPDF supplémentaires qui ne fonctionnent pas sur les PDF contenant uniquement des images :

Compresser le PDF après la reconnaissance optique de caractères (OCR) : Une fois le texte extrait, certaines zones de l’image peuvent parfois être compressées plus fortement.
PDF vers Word après OCR : La conversion d'un PDF OCR en Word permet d'obtenir du texte modifiable ; la conversion d'une numérisation brute permet d'obtenir un fichier Word avec des images intégrées.
Redact PDF après OCR : La rédaction de texte fonctionne correctement sur les documents OCR.
Recherche et extraction : Trouvez et copiez des informations spécifiques sans avoir à les retaper.

Confidentialité : La reconnaissance optique de caractères (OCR) s’exécute dans votre navigateur

Tesseract.js exécute l'intégralité du processus de reconnaissance optique de caractères (OCR) localement grâce à WebAssembly. Vos documents numérisés, qui contiennent souvent des dossiers médicaux, des relevés financiers, des documents juridiques ou des informations personnelles, restent sur votre appareil. Aucun serveur distant ne traite vos fichiers.

Il s'agit d'un avantage significatif par rapport aux services OCR dans le cloud qui reçoivent nécessairement une copie de tout ce que vous traitez.

Limites de la reconnaissance optique de caractères (OCR) basée sur un navigateur

Temps de traitement

Tesseract.js est plus lent que Tesseract natif pour ordinateur ou les API OCR cloud. Prévoyez environ 3 à 8 secondes par page selon votre matériel. Un document de 50 pages peut prendre plusieurs minutes.

Tables

Tesseract reconnaît le contenu des tableaux, mais ne reconstruit pas leur structure dans la couche texte du PDF : le texte est lisible, mais la structure des cellules n’est pas préservée. Pour extraire un tableau structuré, convertissez le PDF numérisé par OCR en Word et reformatez manuellement le tableau.

Notation mathématique

Les équations et symboles mathématiques de type LaTeX ont une précision moindre. Les modèles Tesseract sont optimisés pour le texte en langage naturel.

Écriture manuscrite

Comme indiqué, la précision de l'écriture cursive est limitée. L'écriture en lettres capitales est plus fiable. Pour les documents manuscrits importants, vérifiez chaque page manuellement.

Foire aux questions

Le texte issu de la reconnaissance optique de caractères ne correspond pas aux caractères — est-ce un bug ? Cela peut se produire avec des numérisations fortement déformées. La position du texte est calculée à partir de la position des caractères détectés, mais si la géométrie de la page est non standard, l'alignement peut être décalé. Essayez de faire pivoter le PDF (/rotate-pdf) pour corriger la déformation avant de lancer la reconnaissance optique de caractères (OCR).

Puis-je effectuer une reconnaissance optique de caractères (OCR) uniquement sur certaines pages ? LuraPDF traite toutes les pages. Si vous souhaitez uniquement effectuer une reconnaissance optique de caractères (OCR) sur certaines pages, extrayez-les d'abord à l'aide de Extraire les pages PDF, lancez l'OCR, puis fusionnez éventuellement les résultats.

La reconnaissance optique de caractères (OCR) modifie-t-elle l'apparence visuelle de mon document numérisé ? Non. Les images numérisées originales sont conservées à l'identique. Seule une couche de texte invisible est ajoutée.

Est-il possible d'effectuer une reconnaissance optique de caractères (OCR) sur un PDF contenant déjà des pages de texte et des pages numérisées ? Oui — Tesseract traite les pages contenant des images et ajoute une couche de texte. Les pages qui possèdent déjà une couche de texte ne sont pas affectées.

Mon document est en arabe / chinois / japonais — la reconnaissance optique de caractères (OCR) fonctionnera-t-elle ? Oui, mais veillez à sélectionner la langue appropriée dans l'outil avant de l'exécuter. La précision de Tesseract pour les langues CJK et les langues s'écrivant de droite à gauche est bonne, mais elle varie davantage en fonction de la qualité de la numérisation que pour les documents en alphabet latin.

La reconnaissance optique de caractères (OCR) transforme des archives verrouillées de documents numérisés en informations accessibles, consultables et exploitables. Un classeur rempli de contrats numérisés devient une base de données interrogeable. Une pile de dossiers médicaux devient un document consultable. Le processus ne prend que quelques secondes à quelques minutes et s'exécute entièrement sur votre appareil.