100% privatoOrganizzazione istantaneaLiberi per sempre

OCR PDF Online — Gratuito, solo tramite browser, oltre 100 lingue

Converti i PDF scansionati in PDF di testo ricercabili senza caricare un singolo byte. Tesseract WASM esegue l'OCR direttamente nel tuo browser. Oltre 100 lingue, nessun server, nessuna registrazione.

Rendi ricercabili i PDF scansionati, senza caricarli

Un PDF scansionato è una fotografia di un documento. Sembra testo, ma al suo interno non contiene dati testuali effettivi, bensì una matrice di pixel. La ricerca non funziona. Copia e incolla falliscono. I lettori PDF non riescono a indicizzarlo. Gli strumenti di estrazione del testo restituiscono risultati vuoti. La soluzione è il riconoscimento ottico dei caratteri (OCR): un processo che legge la struttura dei pixel su ogni pagina, identifica i caratteri e ricostruisce il testo. LuraPDF integra Tesseract, il motore OCR open source più diffuso al mondo, gestito da Google, come binario WebAssembly che viene eseguito direttamente nella scheda del browser. Il motore viene scaricato una sola volta e poi elabora il documento interamente sul dispositivo. Nessun caricamento di file, nessuna chiamata API al server, nessuna elaborazione remota. La dichiarazione dei redditi scansionata, il contratto firmato, la cartella clinica o il documento storico non lasciano mai il dispositivo.

La privacy è il motivo principale per cui si sceglie l'OCR basato su browser rispetto alle alternative basate su server. I documenti scansionati contengono informazioni particolarmente sensibili: si scansionano dichiarazioni dei redditi, cartelle cliniche, documenti legali, estratti conto bancari e documenti d'identità. Caricare questi documenti su un'API OCR cloud, anche se dotata di una politica sulla privacy, significa che il file viaggia su Internet, risiede su un server, attraversa pipeline di elaborazione e viene archiviato temporaneamente in modalità che esulano dal controllo dell'utente. L'architettura di LuraPDF elimina questo rischio a livello strutturale. Il binario Tesseract WASM viene eseguito in un Web Worker isolato all'interno del browser. L'unico dato che viene trasferito è il livello di testo OCR che viene riscritto in un PDF in memoria, interamente in locale. L'output è un PDF ricercabile in cui l'immagine della pagina originale viene preservata esattamente e viene aggiunto un livello di testo invisibile al di sotto, perfettamente allineato alle posizioni dei caratteri identificate da Tesseract.

Come eseguire l'OCR su un PDF online

1

Carica il tuo PDF scansionato

Trascina il PDF scansionato o basato su immagine nell'area di caricamento. Il file viene letto nella memoria del browser: nulla viene inviato a un server. Documenti scansionati multipagina, libri e documenti d'archivio funzionano senza alcun limite di pagine imposto da LuraPDF.

2

Seleziona la/le lingua/e

Seleziona la lingua principale del documento dal selettore della lingua. Per i documenti multilingue, come un contratto con sezioni in inglese e francese o un articolo accademico con citazioni in tedesco, seleziona tutte le lingue pertinenti. Tesseract utilizza i modelli linguistici combinati per riconoscere i caratteri in tutti gli alfabeti selezionati.

3

Imposta la preferenza di qualità

Scegli tra la modalità Velocità (più veloce, leggermente meno precisa, ideale per scansioni di font moderni e nitidi) e la modalità Precisione (più lenta, con il motore Tesseract LSTM completo, consigliata per scansioni di bassa qualità, font storici e alfabeti non latini). La modalità Precisione esegue l'intero modello di rete neurale per ogni pagina.

4

Anteprima del livello di testo

Una volta completata la scansione OCR, visualizza l'anteprima del testo riconosciuto accanto alla pagina originale per verificarne l'accuratezza. Tesseract evidenzia i riquadri di delimitazione per ogni parola riconosciuta: in questo modo puoi individuare gli errori nelle aree di scansione di bassa qualità prima di scaricare il file.

5

Scarica il PDF ricercabile

Fai clic su Scarica. pdf-lib scrive un livello di testo invisibile su ogni pagina, esattamente nelle posizioni dei caratteri identificate da Tesseract. Il risultato è un PDF standard ricercabile: l'immagine viene conservata intatta e le funzioni Ctrl+F, copia, seleziona e indicizzazione full-text funzionano correttamente nel file risultante.

100% privato — OCR locale

Tesseract WASM viene eseguito all'interno della scheda del browser in un Web Worker isolato. Il documento scansionato non lascia mai il dispositivo: nessun caricamento, nessuna API server, nessun archiviazione temporanea nel cloud. Questa è la garanzia essenziale di privacy per documenti finanziari, legali e medici scansionati.

Tesseract WASM — Oltre 100 lingue

LuraPDF utilizza Tesseract.js, la versione WebAssembly del motore OCR Tesseract di Google. Sono disponibili oltre 100 modelli linguistici, tra cui latino, cirillico, arabo, cinese (semplificato e tradizionale), giapponese, coreano, ebraico, hindi e molti altri. Seleziona più lingue per i documenti con alfabeti misti.

Output PDF ricercabile

Il risultato conserva fedelmente le immagini originali della pagina scansionata e aggiunge un livello di testo invisibile in corrispondenza dei caratteri corretti. Il PDF risultante è ricercabile: la funzione Ctrl+F permette di trovare le parole, il testo è selezionabile e copiabile e i sistemi di gestione documentale possono indicizzarlo.

Opzione di esportazione solo testo

Oltre a generare file PDF ricercabili, LuraPDF può esportare il testo OCR grezzo come semplice file .txt. Questa funzione è utile per utilizzare il testo riconosciuto con strumenti successivi, come elaboratori di testi, pipeline di elaborazione del linguaggio naturale, strumenti di traduzione o importazione da fogli di calcolo.

Mantiene la disposizione originale

L'immagine originale della pagina non viene alterata. I dati del riquadro di delimitazione di Tesseract associano ogni carattere riconosciuto alla sua posizione in pixel sulla pagina: il livello di testo invisibile viene posizionato esattamente a quelle coordinate. L'aspetto visivo di ogni pagina è identico alla scansione originale.

Gratuito, senza registrazione e senza filigrana.

Nessun account, nessun limite di pagine giornaliere, nessuna filigrana sul PDF ricercabile. Esegui l'OCR sui documenti scansionati tutte le volte che vuoi da qualsiasi browser moderno. I documenti di grandi dimensioni sono più lenti, ma non ci sono limiti.

Chi utilizza LuraPDF OCR PDF?

I PDF scansionati si accumulano in ogni settore. L'OCR permette di decifrarli. Ecco i flussi di lavoro in cui l'OCR locale e privato è l'unica soluzione accettabile.

I team legali rendono ricercabili i contratti scansionati

I contratti, gli atti e i documenti giudiziari firmati vengono spesso scansionati e archiviati come file PDF immagine. È possibile utilizzare la tecnologia OCR in locale per rendere ogni clausola ricercabile nel sistema di gestione documentale, senza dover caricare documenti legali riservati su un servizio cloud.

Archivisti: digitalizzano i documenti storici

Biblioteche, archivi e ricercatori genealogici scansionano giornali storici, lettere, registri e manoscritti. Tesseract supporta font latini storici e set di caratteri non standard. Esegui l'OCR per rendere ricercabili documenti centenari senza dover trasmettere materiali storici fragili a un server di terze parti.

Ricercatori: ricerca di documenti accademici scansionati

I documenti accademici pre-digitali, gli atti di convegni e le scansioni di riviste non sono ricercabili per impostazione predefinita. È necessario utilizzare l'OCR per abilitare la ricerca tramite Ctrl+F, l'annotazione, l'estrazione delle citazioni e l'integrazione con gli strumenti di gestione delle referenze.

I contabili estraggono le cifre dalle ricevute scansionate.

Le ricevute e le fatture scansionate contengono importi, date e nomi dei fornitori, racchiusi nei pixel dell'immagine. La tecnologia OCR li converte in testo ricercabile e selezionabile, consentendo il copia-incolla in software di contabilità o l'estrazione di dati a valle.

Le équipe mediche digitalizzano le cartelle cliniche dei pazienti.

Le cartelle cliniche preesistenti, le lettere di referto e i moduli clinici arrivano sotto forma di scansioni. Le informazioni sanitarie protette sono troppo sensibili per essere caricate su un'API OCR in cloud. Esegui l'OCR localmente per rendere i documenti ricercabili, mantenendo al contempo le informazioni sanitarie protette sul dispositivo dello studio medico.

Sviluppatori: aggiungete un livello di testo per le pipeline di elaborazione del linguaggio naturale.

Le pipeline di intelligence documentale che estraggono entità, classificano contenuti o riassumono documenti PDF richiedono un livello di testo per funzionare. L'OCR dei PDF scansionati localmente con Tesseract WASM genera PDF ricercabili o file di testo grezzo che alimentano i modelli NLP senza esporre i dati dei documenti ad API esterne.

Perché utilizzare l'OCR basato su browser?

Tesseract WASM nel browser combina la precisione OCR di livello professionale con la garanzia di privacy dell'elaborazione locale. Ecco cosa offre questa combinazione.

  • I documenti scansionati contenenti dati personali (numeri di previdenza sociale, numeri di conto corrente, diagnosi mediche) non vengono mai caricati online e non sono mai a rischio di intercettazione o violazione dei dati lato server.
  • Oltre 100 modelli linguistici coprono i principali alfabeti del mondo — latino, cirillico, arabo, CJK, devanagari, ebraico e molti altri — in un unico strumento, senza costi aggiuntivi per l'acquisto di nuove lingue.
  • L'output ricercabile significa che Ctrl+F, la selezione del testo, il copia-incolla e l'indicizzazione full-text funzionano immediatamente dopo l'OCR: il documento scansionato si comporta come un PDF nativo digitale.
  • L'immagine originale della pagina viene preservata esattamente: l'OCR aggiunge un livello di testo, non altera né rielabora il contenuto visivo. Le pagine scansionate appaiono identiche prima e dopo.
  • Grazie alle prestazioni di WebAssembly, i moderni browser desktop eseguono Tesseract a una velocità quasi nativa: la velocità di elaborazione tipica è di 5-15 secondi per pagina in modalità di massima precisione.
  • Gratuito, senza quote giornaliere o limiti di pagine: esegui il riconoscimento ottico dei caratteri (OCR) di un libro scansionato di 500 pagine o di una singola ricevuta, senza costi aggiuntivi.

Come LuraPDF esegue l'OCR sui file PDF

Quando si carica un PDF scansionato, pdf.js renderizza ogni pagina su una tela HTML con una risoluzione target di 200 DPI (configurabile a 300 DPI per la modalità Accuracy). I dati dell'immagine della tela vengono trasferiti tramite un SharedArrayBuffer a un Web Worker di Tesseract.js che esegue i modelli linguistici LSTM selezionati. Tesseract esegue un'analisi del layout per segmentare la pagina in regioni di testo, quindi applica la rete neurale LSTM a ciascuna regione per riconoscere le sequenze di caratteri. L'output è un elenco di parole con le relative sequenze di caratteri Unicode riconosciute e le coordinate del riquadro di delimitazione, ovvero la posizione in pixel sulla pagina in cui appare ciascuna parola.

Una volta che Tesseract ha terminato l'elaborazione di una pagina, pdf-lib utilizza il testo riconosciuto e i riquadri di delimitazione per disegnare un livello di testo invisibile sulla pagina PDF corrispondente. Ogni parola viene posizionata alle sue coordinate rilevate utilizzando `page.drawText()` con una dimensione del carattere calcolata dall'altezza del riquadro di delimitazione e un colore del testo `rgb(0, 0, 0)` con opacità zero: invisibile visivamente, ma presente nel flusso di testo del PDF. I moderni visualizzatori PDF utilizzano questo flusso di testo per operazioni di ricerca, selezione e copia . Il risultato è un PDF che appare esattamente come la scansione originale ma risponde a Ctrl+F, supporta la selezione del testo e può essere indicizzato da sistemi di gestione documentale e motori di ricerca.

OCR PDF: LuraPDF contro le alternative

CaratteristicaLuraPDFOCR basato su server (ilovepdf, Smallpdf)Adobe Acrobat
PrivacySolo browser: il file non viene mai caricato.Documento scansionato caricato su server remotoLocale, ma richiede un abbonamento a pagamento
Supporto linguisticoOltre 100 lingue tramite Tesseract WASMVaria — in genere meno lingueAcrobat: molte, ma limitate competenze multilingue
CostoGratis per sempre, senza limiti di pagine.Modello gratuito: limite di pagine o sistema di pagamentoAbbonamento Acrobat $$$
È necessaria la registrazione.Nessuno — apri la pagina ed esegui l'OCRPer visualizzare i documenti multipagina è necessario un account.È necessario un Adobe ID e un abbonamento.

Consigli per una maggiore precisione nell'OCR

La qualità della scansione è il fattore più importante per la precisione dell'OCR. Questi suggerimenti ti aiuteranno a ottenere i migliori risultati con Tesseract WASM.

  1. Tip 1:

    Seleziona la lingua corretta: la precisione di Tesseract diminuisce significativamente quando viene applicato il modello linguistico sbagliato. In caso di dubbi, seleziona più lingue plausibili e Tesseract voterà tra di esse.

  2. Tip 2:

    Una risoluzione di scansione più elevata produce un OCR migliore: le scansioni a 300 DPI raggiungono una precisione significativamente superiore rispetto a quelle a 150 DPI o inferiori, soprattutto per i testi con caratteri piccoli e gli alfabeti non latini.

  3. Tip 3:

    Ritaglia e ruota prima dell'OCR: utilizza gli strumenti Ritaglia PDF e Ruota PDF di LuraPDF per allineare le pagine in verticale e rimuovere i margini prima di eseguire l'OCR. Le pagine inclinate o capovolte compromettono la qualità del riconoscimento.

  4. Tip 4:

    Per documenti di grandi dimensioni e multipagina su dispositivi mobili, è consigliabile utilizzare un browser desktop: Tesseract WASM richiede un'elevata potenza di elaborazione e i dispositivi mobili sono più lenti. Chrome o Firefox, sia su tablet che su computer desktop, offrono le migliori prestazioni.

  5. Tip 5:

    Dopo l'OCR, utilizza PDF to Text per estrarre tutto il testo riconosciuto come file semplice da incollare in un elaboratore di testi, uno strumento di traduzione o una pipeline di dati.

  6. Tip 6:

    Per i documenti multilingue con alfabeti misti, come un contratto legale con sezioni in inglese e arabo o un documento con testo in inglese e caratteri cinesi, è consigliabile selezionare tutte le lingue pertinenti prima di eseguire l'OCR, anziché elaborare le sezioni separatamente.

Domande frequenti

Posso eseguire un riconoscimento ottico dei caratteri (OCR) su un PDF gratuitamente senza caricarlo?
Sì. LuraPDF utilizza Tesseract WASM, la versione WebAssembly del motore OCR Tesseract di Google, che funziona interamente all'interno del browser. Nessun caricamento di file, nessun server, nessun account richiesto. Basta inserire il PDF scansionato, selezionare la lingua e scaricare gratuitamente un PDF ricercabile.
Quanto è preciso il sistema OCR di Tesseract WASM?
Il motore LSTM di Tesseract è di livello di ricerca e raggiunge un'accuratezza dei caratteri del 95-99% su scansioni nitide ad alta risoluzione (300 DPI) di font moderni. L'accuratezza diminuisce per scansioni a bassa risoluzione, scrittura a mano, font insoliti e immagini fortemente compresse. La selezione del modello linguistico corretto è l'impostazione che ha il maggiore impatto sull'accuratezza.
Quali lingue supporta l'OCR?
Sono disponibili oltre 100 lingue, tra cui inglese, spagnolo, francese, tedesco, italiano, portoghese, arabo, cinese semplificato, cinese tradizionale, giapponese, coreano, russo, hindi, ebraico, tailandese e molte altre. Seleziona più lingue per i documenti multilingue: Tesseract utilizza simultaneamente tutti i modelli selezionati.
È sicuro utilizzare la tecnologia OCR per scansionare documenti riservati online?
Sì, con LuraPDF, perché il file non lascia mai il tuo dispositivo. Tesseract WASM viene eseguito in un Web Worker isolato all'interno del tuo browser. Nessun dato viene trasmesso a un server. Questo rende LuraPDF la scelta ideale per l'OCR di dichiarazioni dei redditi, cartelle cliniche, documenti legali e finanziari scansionati che non possono essere caricati su servizi esterni.
L'OCR tramite browser è più lento dell'OCR basato su server?
Sì, l'OCR WASM del browser è più lento dell'OCR lato server perché le moderne API OCR cloud vengono eseguite su hardware multi-GPU. Tesseract WASM di LuraPDF in genere impiega dai 5 ai 15 secondi per pagina in modalità Accuratezza su una CPU desktop moderna. Questo è un compromesso accettabile in cambio della garanzia di privacy. Per documenti molto grandi su dispositivi con poca memoria, si consiglia vivamente di utilizzare un browser desktop piuttosto che un dispositivo mobile.
La tecnologia OCR altera l'aspetto del mio PDF scansionato?
No. Le immagini originali delle pagine vengono conservate esattamente. L'OCR aggiunge un livello di testo invisibile in corrispondenza dei caratteri riconosciuti: il contenuto visivo di ogni pagina è identico byte per byte alla scansione di input. Ciò che cambia è che il testo diventa ricercabile, selezionabile e copiabile.
Il PDF generato dall'OCR conterrà una filigrana?
No. LuraPDF non aggiunge filigrane, timbri o elementi promozionali ai file di output. Il PDF ricercabile che scarichi è un documento pulito con l'aggiunta del solo livello di testo invisibile.
Posso riconoscere un PDF tramite OCR dal mio telefono?
Sì, per documenti brevi. Tesseract WASM è un software che richiede un'elevata potenza di calcolo. Una scansione di 10 pagine su uno smartphone moderno richiede in genere da 1 a 3 minuti in modalità Precisione. Per documenti lunghi, di oltre 50 pagine, si consiglia vivamente di utilizzare un browser desktop per ottenere tempi di elaborazione ragionevoli.
La tecnologia OCR preserva il layout originale della pagina?
Sì. Le immagini della pagina non vengono renderizzate nuovamente né ridimensionate. L'output del riquadro di delimitazione di Tesseract viene utilizzato per posizionare il livello di testo in coordinate precise a livello di carattere sull'immagine originale. Colonne, tabelle, intestazioni, note a piè di pagina e layout a più colonne vengono riconosciuti e il livello di testo segue la struttura visiva originale.
È possibile utilizzare la tecnologia OCR su un PDF multilingue contenente testo in diversi alfabeti?
Sì. Seleziona tutte le lingue presenti nel documento prima di eseguire l'OCR. Ad esempio, un contratto con sezioni in inglese e arabo: seleziona sia l'inglese che l'arabo. Tesseract applica simultaneamente tutti i modelli linguistici selezionati e utilizza un sistema di votazione per determinare la migliore corrispondenza dei caratteri per ciascuna regione. Questo metodo è più preciso rispetto all'elaborazione separata delle sezioni.

OCR PDF in locale: oltre 100 lingue, output ricercabile, gratuito

Trascina il PDF scansionato nell'area di caricamento qui sopra, seleziona la lingua del documento e lascia che Tesseract WASM renda ogni pagina ricercabile, direttamente nel tuo browser. Nessun caricamento, nessun server, nessun account, nessuna filigrana, nessun limite di pagine. I tuoi documenti fiscali, atti legali, cartelle cliniche e materiali d'archivio scansionati rimangono sul tuo dispositivo dal momento in cui li selezioni fino al momento in cui il PDF ricercabile viene salvato nella cartella dei download. Dopo l'OCR, estrai il testo completo con PDF to Text, ritagliare e ruota le scansioni con gli strumenti Crop PDF e Ruota PDF, oppure annota le pagine appena rese ricercabili con lo strumento Annotate PDF.