Tutorial

Come eseguire l'OCR su un PDF scansionato e renderlo ricercabile

Scopri come funziona l'OCR (riconoscimento ottico dei caratteri), quali fattori ne influenzano la precisione e come convertire un PDF scansionato in un documento ricercabile e copiabile e incollabile utilizzando lo strumento OCR basato su browser di LuraPDF.

LuraPDF Team
LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 7 min read

Un PDF scansionato è una fotografia digitale di un documento. Le pagine sono immagini. Non è possibile selezionare il testo, cercare una parola, copiare una frase o utilizzare il contenuto con alcun programma di elaborazione testi. Ai fini del recupero delle informazioni, un PDF scansionato è essenzialmente opaco.

La tecnologia OCR (riconoscimento ottico dei caratteri) risolve questo problema analizzando le immagini e creando un livello di testo che si sovrappone al contenuto visivo. Il risultato: un PDF identico alla scansione originale, ma contenente un livello di testo invisibile che rende tutto selezionabile, ricercabile e copiabile.

Come funziona l'OCR

LuraPDF utilizza Tesseract.js, la versione di Tesseract compilata per il browser, uno dei motori OCR open source più precisi, gestito da Google e originariamente sviluppato da HP Labs. Tesseract utilizza un modello di rete neurale (basato su LSTM) addestrato su milioni di pagine di documenti in decine di lingue.

La pipeline OCR:

  1. Rendering della pagina: Ogni pagina PDF viene renderizzata come immagine canvas ad alta risoluzione (oltre 300 DPI per la massima precisione).
  2. Pre-elaborazione: Miglioramento dell'immagine — binarizzazione, riduzione del rumore, correzione della distorsione (raddrizzamento delle scansioni ruotate)
  3. Analisi del layout: Individuazione di aree di testo, colonne, tabelle ed elementi non testuali
  4. Riconoscimento dei caratteri: la rete neurale classifica ogni carattere a partire da regioni di testo segmentate
  5. Post-elaborazione: Valutazione del modello linguistico per disambiguare caratteri simili (ad esempio, "l" vs "1", "O" vs "0")
  6. Scrittura PDF: Il testo riconosciuto viene incorporato come un livello di testo invisibile posizionato con precisione sopra i corrispondenti caratteri visivi.

Lo strato di testo invisibile è ciò che rende il risultato ricercabile. L'aspetto visivo della pagina rimane quello dell'immagine scansionata originale: si vede esattamente ciò che è stato scansionato, ma il testo sottostante è ora leggibile automaticamente.

Cosa influisce sulla precisione dell'OCR

La precisione varia notevolmente in base alla qualità dei dati in ingresso:

Risoluzione di scansione

300 DPI è il minimo per una precisione affidabile. Al di sotto di 200 DPI, il riconoscimento dei caratteri si degrada notevolmente. Se si scansionano documenti per l'OCR, è sempre consigliabile scansionare a 300 DPI o superiore.

I documenti scansionati a 150 DPI o meno devono essere scansionati nuovamente a una risoluzione più elevata prima dell'OCR. L'esecuzione dell'OCR su scansioni a bassa risoluzione produce risultati scadenti, indipendentemente dalla qualità del motore.

Carattere e qualità di stampa

  • Testo stampato (output di stampanti laser, libri composti tipograficamente): precisione del 98-99% con originali puliti
  • Scrittura a mano di alta qualità con caratteri chiari: 85–95%
  • Testo sbiadito o poco visibile: 80–95% a seconda del contrasto
  • Carta carbone per fotocopie: 60–85%
  • Vecchi giornali / macchine da scrivere: 90-95% con scansioni nitide
  • Scrittura corsiva: 40–70% — l'OCR basato su reti neurali ha difficoltà con la scrittura corsiva

Orientamento della pagina

Pagine fortemente inclinate o ruotate compromettono la precisione. La maggior parte dei motori OCR, incluso Tesseract, rileva e corregge automaticamente le rotazioni minori (fino a circa 10 gradi). Le pagine fortemente ruotate devono essere corrette manualmente prima utilizzando Ruota PDF.

Lingua

Tesseract supporta oltre 100 lingue. Lo strumento OCR di LuraPDF rileva automaticamente l'inglese. Per i caratteri non latini o i documenti non in inglese, la selezione della lingua migliora notevolmente la precisione.

Come eseguire l'OCR su un PDF con LuraPDF

  1. Apri lo strumento OCR: vai a LuraPDF OCR PDF
  2. Carica il PDF scansionato: trascina e rilascia il file
  3. Seleziona la lingua (se diversa dall'inglese): scegli la lingua principale del documento
  4. Fai clic su "Esegui OCR": l'elaborazione avviene pagina per pagina nel tuo browser. Il tempo varia in base alla lunghezza del documento: una scansione di 20 pagine richiede in genere dai 30 ai 90 secondi su un computer moderno.
  5. Scarica il PDF ricercabile: Il risultato è un PDF contenente le immagini originali della scansione più un livello di testo incorporato.

Verifica del risultato

Dopo l'OCR, verificare l'accuratezza:

  • Selezionare il testo sulla pagina: il testo deve essere selezionabile esattamente sopra i caratteri stampati.
  • Cerca (Ctrl+F / Cmd+F) una parola comune: dovrebbe essere trovata
  • Copia un paragrafo e incollalo in un editor di testo: il risultato dovrebbe essere leggibile.

Se la precisione è scarsa, prima di provare altri strumenti, verifica la qualità della scansione in ingresso.

Quando eseguire l'OCR prima di altre operazioni

La funzione OCR sblocca ulteriori operazioni di LuraPDF che non funzionano sui PDF composti esclusivamente da immagini:

  • Comprimi PDF dopo l'OCR: una volta estratto il testo, le regioni dell'immagine possono talvolta essere compresse in modo più aggressivo
  • Da PDF a Word dopo OCR: la conversione di un PDF con OCR in Word produce testo modificabile; la conversione di una scansione non elaborata produce un file Word con immagini incorporate
  • Oscuramento PDF dopo OCR: l'oscuramento basato sul testo funziona correttamente sui documenti OCR.
  • Cerca ed estrai: Trova e copia informazioni specifiche senza doverle riscrivere

Privacy: l'OCR viene eseguito nel tuo browser

Tesseract.js esegue l'intero processo OCR localmente utilizzando WebAssembly. I documenti scansionati, che spesso contengono cartelle cliniche, estratti conto, documenti legali o informazioni personali, non lasciano mai il dispositivo. Nessun server remoto elabora il file.

Questo rappresenta un vantaggio significativo rispetto ai servizi OCR basati su cloud, che necessariamente ricevono una copia di tutto ciò che viene elaborato.

Limitazioni dell'OCR basato su browser

Tempo di elaborazione

Tesseract.js è più lento rispetto alle versioni native di Tesseract per desktop o alle API OCR basate su cloud. Il tempo di elaborazione per pagina varia approssimativamente tra i 3 e gli 8 secondi, a seconda dell'hardware. Un documento di 50 pagine potrebbe richiedere diversi minuti.

Tabelle

Tesseract riconosce il contenuto delle tabelle, ma non ne ricostruisce la struttura nel livello di testo del PDF: il testo sarà leggibile, ma la struttura delle celle non verrà preservata. Per estrarre tabelle strutturate, converti il ​​PDF elaborato tramite OCR in un file Word e riformatta manualmente la tabella.

Notazione matematica

Le equazioni e i simboli matematici in stile LaTeX hanno una precisione inferiore. I modelli Tesseract sono ottimizzati per il testo in linguaggio naturale.

Scrittura a mano

Come già accennato, la precisione della scrittura corsiva è limitata. La scrittura in stampatello è più precisa. Per i documenti manoscritti di importanza critica, si consiglia di verificare manualmente ogni pagina.

Domande frequenti

Il testo elaborato tramite OCR non è allineato con i caratteri: si tratta di un bug? Questo può accadere con scansioni fortemente inclinate. Le posizioni del testo vengono calcolate a partire dalle posizioni dei caratteri rilevati, ma se la geometria della pagina non è standard, l'allineamento potrebbe variare. Prova a ruotare il PDF per correggere l'inclinazione prima di eseguire l'OCR.

Posso eseguire l'OCR solo su pagine specifiche? LuraPDF elabora tutte le pagine. Se hai bisogno dell'OCR solo su pagine specifiche, estrai prima quelle pagine utilizzando Estrai pagine PDF, esegui l'OCR e poi, facoltativamente, unisci i risultati.

La tecnologia OCR modifica l'aspetto visivo del documento scansionato? No. Le immagini originali della scansione vengono conservate esattamente. Viene aggiunto solo un livello di testo invisibile.

Posso eseguire l'OCR su un PDF che contiene già pagine di testo e pagine scansionate? Sì, Tesseract elabora le pagine basate su immagini e aggiunge un livello di testo. Le pagine che dispongono già di un livello di testo non vengono modificate.

Il mio documento è in arabo/cinese/giapponese: la tecnologia OCR funzionerà? Sì, ma seleziona la lingua corretta nello strumento prima di eseguirlo. La precisione di Tesseract per le lingue CJK e quelle con scrittura da destra a sinistra è buona, ma varia maggiormente in base alla qualità della scansione rispetto ai documenti con scrittura latina.

La tecnologia OCR trasforma archivi protetti di documenti scansionati in informazioni accessibili, ricercabili ed elaborabili. Un armadio pieno di contratti scansionati diventa un database consultabile. Una pila di cartelle cliniche si trasforma in un documento effettivamente navigabile. Il processo richiede da pochi secondi a qualche minuto e viene eseguito interamente sul tuo dispositivo.

About the author

LuraPDF Team
LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 7 min read

The LuraPDF team consists of document processing experts, software engineers, and technical writers dedicated to making professional PDF editing free, private, and accessible.