100% 私密即时处理永久免费

在线OCR PDF识别——免费、仅限浏览器使用、支持100多种语言

无需上传任何数据,即可将扫描的 PDF 文件转换为可搜索的文本 PDF 文件。Tesseract WASM 直接在浏览器中运行 OCR 功能。支持 100 多种语言,无需服务器,无需注册。

无需上传即可使扫描的 PDF 文件可搜索

扫描的 PDF 文件实际上是文档的照片。它看起来像文本,但实际上并没有真正的文本数据,只有像素矩阵。因此,搜索功能无法使用,复制粘贴也失败,PDF 阅读器无法对其进行索引,文本提取工具也只能返回空结果。解决之道在于光学字符识别 (OCR):它读取每页的像素模式,识别字符,并重建文本。LuraPDF 将 Tesseract(全球使用最广泛的开源 OCR 引擎,由 Google 维护)嵌入到 WebAssembly 二进制文件中,直接在您的浏览器标签页中运行。该引擎只需下载一次,即可在您的设备上完全处理文档。无需文件上传,无需调用服务器 API,也无需远程处理。您扫描的纳税申报表、已签署的合同、病历或历史文档始终在您的设备本地运行。

隐私是选择基于浏览器的 OCR 而非基于服务器的方案的关键原因。扫描文档的敏感程度往往不成比例:人们会扫描纳税申报单、医疗记录、法律文件、银行对账单和身份证件。将这些文件上传到云端 OCR API(即使是拥有隐私政策的 API)意味着文件会通过互联网传输,存储在服务器上,经过处理流程,并以您无法控制的方式进行临时存储。LuraPDF 的架构从结构上消除了这种风险。Tesseract WASM 二进制文件在浏览器内部的沙盒 Web Worker 中运行。唯一移动的数据是 OCR 识别后的文本层,它会被写回内存中的 PDF 文件——所有操作都在本地进行。输出结果是一个可搜索的 PDF 文件,其中原始页面图像被完整保留,并在其下方添加了一个不可见的文本层,该文本层与 Tesseract 识别出的字符位置完美匹配。

如何在线对PDF文件进行OCR识别

1

上传您扫描的PDF文件

将扫描件或图像格式的 PDF 文件拖放到上传区域。文件会被读取到浏览器内存中,不会发送到服务器。LuraPDF 不受页数限制,支持多页扫描文档、书籍和档案记录。

2

选择语言

请从语言选择器中选择文档的主要语言。对于多语言文档(例如包含英文和法文部分的合同,或包含德文引用的学术论文),请选择所有相关语言。Tesseract 使用组合语言模型来识别所有选定文字的字符。

3

设置质量偏好

您可以选择速度模式(速度更快,精度略低,适用于清晰的现代字体扫描件)或精度模式(速度较慢,使用完整的 Tesseract LSTM 引擎,推荐用于低质量扫描件、历史字体和非拉丁文字)。精度模式会对每一页运行完整的神经网络模型。

4

预览文本图层

OCR识别完成后,请将识别出的文本与原始页面进行对比预览,以验证其准确性。Tesseract会高亮显示每个识别出的单词的边界框——您可以在下载前发现低质量扫描区域中的错误。

5

下载可搜索的PDF文件

点击下载。pdf-lib 会在 Tesseract 识别出的精确字符位置,在每页上写入一个不可见的文本层。输出结果是一个标准的、可搜索的 PDF 文件——图像完整保留,Ctrl+F副本、复制、选择和全文索引等功能均可正常使用。

100% 私有 — 本地 OCR

Tesseract WASM 在您的浏览器标签页内以沙盒化的 Web Worker 运行。您扫描的文档绝不会离开您的设备——无需上传、无需服务器 API、无需临时云存储。这是扫描的财务、法律和医疗文件的重要隐私保障。

Tesseract WASM — 支持 100 多种语言

LuraPDF 使用 Tesseract.js,它是 Google Tesseract OCR 引擎的 WebAssembly 移植版本。它支持 100 多种语言模型,包括拉丁字母、西里尔字母、阿拉伯字母、简体中文和繁体中文、日语、韩语、希伯来语、印地语等等。对于混合文字文档,可以选择多种语言。

可搜索的 PDF 输出

输出结果精确保留了原始扫描页面图像,并在正确的字符位置添加了一个不可见的文本层。最终生成一个可搜索的 PDF 文件——可以使用 Ctrl+F 查找单词,文本可选择和复制,并且文档管理系统可以对其进行索引。

纯文本导出选项

除了可搜索的 PDF 输出外,LuraPDF 还可以将原始 OCR 识别文本导出为纯文本 .txt 文件。这对于将识别出的文本导入下游工具(例如文字处理器、自然语言处理流程、翻译工具或电子表格导入程序)非常有用。

保留原有布局

原始页面图像未被修改。Tesseract 的边界框数据将每个识别出的字符映射到页面上的相应像素位置——不可见的文本层就放置在这些精确的坐标处。每一页的视觉效果都与原始扫描件完全相同。

免费,无需注册,无水印

无需注册账号,没有每日页面数量限制,可搜索的 PDF 输出文件不带水印。您可以使用任何现代浏览器,根据需要多次对扫描文档运行 OCR 功能。处理大型文档速度较慢,但​​处理次数没有限制。

谁在使用 LuraPDF OCR PDF

各行各业都会积累大量的扫描版 PDF 文件。OCR 技术可以解锁这些文件。在以下工作流程中,本地私有 OCR 是唯一可接受的方法。

法律团队——使扫描的合同可搜索

已签署的合同、契约和法庭文件通常会被扫描并以图像 PDF 格式存档。在本地进行 OCR 处理,即可在文档管理系统中搜索到每个条款,而无需将机密法律文件上传到云服务。

档案管理员——将历史文献数字化

图书馆、档案馆和家谱研究人员会扫描历史报纸、信件、账簿和手稿。Tesseract 支持历史拉丁字体和非标准字符集。运行 OCR 功能,即可使百年历史的文档可搜索,而无需将脆弱的历史资料传输到第三方服务器。

研究人员——搜索已扫描的学术论文

默认情况下,数字化之前的学术论文、会议论文集和期刊扫描件无法搜索。需要对其进行光学字符识别 (OCR),才能启用 Ctrl+F 搜索、注释、提取引文以及导入参考文献管理工具。

会计人员——从扫描的收据中提取数据

扫描的费用收据和发票包含金额、日期和供应商名称等信息,这些信息都以图像像素的形式存储。OCR 技术可以将这些信息转换为可搜索、可选择的文本,从而实现复制粘贴到会计软件或进行后续数据提取。

医疗团队——将扫描的患者记录数字化

以往的患者病历、转诊信和临床表格均以扫描件形式送达。由于受保护的健康信息过于敏感,无法上传至云端 OCR API。因此,建议在本地运行 OCR,以便在将受保护的健康信息保留在诊所设备上的同时,实现病历的可搜索性。

开发者——为自然语言处理流程添加文本层

提取实体、分类内容或摘要 PDF 文档的文档智能管道需要文本层才能正常工作。我们使用 Tesseract WASM 在本地对扫描的 PDF 进行 OCR 处理,生成可搜索的 PDF 或原始文本文件,这些文件可用于输入 NLP 模型,而无需将文档数据暴露给外部 API。

为什么使用基于浏览器的OCR

浏览器中的 Tesseract WASM 将研究级 OCR 精度与本地处理的隐私保障相结合。以下是这种组合带来的效果。

  • 包含个人数据(社会保障号码、账号、医疗诊断)的扫描文件绝不会上传,也绝不会面临被拦截或服务器端数据泄露的风险。
  • 超过 100 种语言模型涵盖了世界上的主要文字——拉丁文、西里尔文、阿拉伯文、CJK 文、梵文、希伯来文等等——所有这些都集成在一个工具中,无需额外购买语言。
  • 可搜索的输出意味着 Ctrl+F、文本选择、复制粘贴和全文索引在 OCR 之后即可立即使用——扫描的文档就像一个原生数字 PDF 一样。
  • 原始页面图像被完整保留——OCR技术只是添加了一个文本层,不会改变或重新渲染视觉内容。扫描前后的页面看起来完全一样。
  • WebAssembly 的性能意味着现代桌面浏览器可以以接近原生速度运行 Tesseract——在完全准确模式下,典型的吞吐量为每页 5-15 秒。
  • 免费,无每日限额或页数限制——OCR 可扫描 500 页书籍或单张收据,费用无差别。

LuraPDF 如何对 PDF 文件进行 OCR 识别

上传扫描的 PDF 文件后,pdf.js 会将每一页渲染到 HTML 画布上,目标分辨率为 200 DPI(精度模式下可配置为 300 DPI)。画布图像数据通过 SharedArrayBuffer 传输到运行所选 LSTM 语言模型的 Tesseract.js Web Worker。Tesseract 执行布局分析,将页面分割成文本区域,然后将 LSTM 神经网络应用于每个区域以识别字符序列。输出结果是一个单词列表,其中包含识别出的 Unicode 字符序列和边界框坐标——即每个单词在页面上的像素位置。

Tesseract 完成页面处理后,pdf-lib 会利用识别出的文本和边界框在对应的 PDF 页面上绘制一个不可见的文本层。每个单词都使用 `page.drawText()` 函数放置在其检测到的坐标处,字体大小根据边界框高度计算,文本颜色为 `rgb(0, 0, 0)`,不透明度为零——视觉上不可见,但存在于 PDF 的文本内容流中。现代 PDF 查看器使用此文本流进行搜索、选择和副本操作。最终生成的 PDF 文件外观与原始扫描件完全相同,但支持 Ctrl+F 查找、文本选择,并且可以被文档管理系统和搜索引擎索引。

OCR PDF:LuraPDF 与其他替代方案的比较

特征LuraPDF基于服务器的OCR(ilovepdf、Smallpdf)Adobe Acrobat
隐私仅限浏览器访问——文件不会上传。扫描文档已上传至远程服务器本地,但需要付费订阅。
语言支持通过 Tesseract WASM 支持 100 多种语言语言种类繁多,通常较少。Acrobat:功能丰富,但多语言支持有限。
成本永久免费,无页面限制免费增值模式——页面限制或付费墙Acrobat订阅
需要注册无 — 打开页面并运行 OCR需要账号才能打开多页文档需要 Adob​​e ID 和订阅

提高OCR准确率的技巧

扫描质量是影响OCR准确性的最重要因素。以下技巧可帮助您从Tesseract WASM获得最佳效果。

  1. Tip 1:

    选择正确的语言——如果应用了错误的语言模型,Tesseract 的准确率会显著下降。如果您不确定,请选择多种可能的语言,Tesseract 将对它们进行投票。

  2. Tip 2:

    更高的扫描分辨率可产生更好的 OCR 效果——300 DPI 的扫描精度明显高于 150 DPI 或更低的扫描精度,尤其对于小字体文本和非拉丁文字。

  3. Tip 3:

    进行 OCR 识别前,请先裁剪和旋转页面——使用 LuraPDF 的“裁剪 PDF”和“旋转 PDF”工具,在运行 OCR 识别前将页面竖直对齐并去除页边距。倾斜或倒置的页面会降低识别质量。

  4. Tip 4:

    对于移动设备上的大型多页文档,请切换到桌面浏览器——Tesseract WASM 非常消耗处理器资源,而移动设备的运行速度较慢。平板电脑或桌面版的 Chrome 或 Firefox 浏览器可提供最佳的吞吐量。

  5. Tip 5:

    OCR 完成后,使用 PDF 转文本功能将识别出的完整文本提取为纯文本文件,以便粘贴到文字处理器、翻译工具或数据管道中。

  6. Tip 6:

    对于混合使用多种文字的多语言文档(例如,包含英文和阿拉伯文部分的法律合同,或者包含英文文本和中文图表的文档),请在运行 OCR 之前选择所有相关语言,而不是分别处理各个部分。

常见问题解答

我可以不上传PDF文件就免费进行OCR识别吗?
是的。LuraPDF 使用 Tesseract WASM——谷歌 Tesseract OCR 引擎的 WebAssembly 版本——它完全在您的浏览器中运行。无需上传文件,无需服务器,也无需注册账号。只需拖放扫描的 PDF 文件,选择语言,即可免费下载可搜索的 PDF 文件。
Tesseract WASM OCR 的准确率如何?
Tesseract 的 LSTM 引擎是研究级的,在清晰、高分辨率(300 DPI)的现代字体扫描图像上,字符识别准确率可达 95%–99%。对于低分辨率扫描图像、手写体、特殊字体和高度压缩的图像,准确率会下降。选择正确的语言模型是影响准确率的最关键因素。
OCR支持哪些语言?
支持超过 100 种语言,包括英语、西班牙语、法语、德语、意大利语、葡萄牙语、阿拉伯语、简体中文、繁体中文、日语、韩语、俄语、印地语、希伯来语、泰语等等。对于混合语言文档,可以选择多种语言——Tesseract 会同时使用所有选定的模型。
在线使用OCR技术识别机密扫描文件安全吗?
是的——使用 LuraPDF 可以做到这一点,因为文件始终不会离开您的设备。Tesseract WASM 在您浏览器的沙盒 Web Worker 中运行。不会向服务器传输任何数据。因此,LuraPDF 是 OCR 扫描的税务申报表、医疗记录、法律文件和财务文件的理想选择,这些文件无法上传到外部服务。
浏览器端OCR比服务器端OCR慢吗?
是的,浏览器端 WASM OCR 比服务器端 OCR 慢,因为现代云端 OCR API 运行在多 GPU 硬件上。在现代桌面 CPU 上,LuraPDF 的 Tesseract WASM 在“精确模式”下通常每页需要 5-15 秒的处理时间。为了保证隐私,这是可以接受的权衡。对于内存较小的设备上的大型文档,强烈建议使用桌面浏览器而不是移动设备。
OCR会改变我扫描的PDF的外观吗?
不。原始页面图像会被完整保留。OCR 会在识别出的字符位置添加一个不可见的文本层——每一页的视觉内容都与输入扫描件逐字节完全相同。改变的是,文本变得可搜索、可选中和可复制。
OCR识别输出的PDF文件会带有水印吗?
不。LuraPDF 不会在任何输出文件中添加水印、印章或促销叠加层。您下载的可搜索 PDF 文档是一个干净的文档,仅添加了一个不可见的文本层。
我可以在手机上对PDF文件进行OCR识别吗?
是的,对于短文档来说可以。Tesseract WASM 的计算量很大。在现代智能手机上,使用精确模式扫描 10 页文档通常需要 1-3 分钟。对于 50 页以上的长文档,强烈建议使用桌面浏览器以获得合理的处理时间。
OCR技术能否保留原始页面布局?
是的。页面图像不会被重新渲染或调整大小。Tesseract 的边界框输出用于将文本层精确定位到原始图像上的字符坐标。列、表格、标题、脚注和多列布局都能被识别,文本层会遵循原始的视觉结构。
我能否对包含多种文字的PDF文件进行OCR识别?
是的。运行 OCR 之前,请选择文档中包含的所有语言。例如,一份包含英文和阿拉伯文部分的合同:请同时选择英文和阿拉伯文。Tesseract 会同时应用所有选定的语言模型,并使用投票机制来确定每个区域的最佳字符匹配。这比分别处理各个部分更加准确。

本地 OCR PDF 识别——支持 100 多种语言,输出结果可搜索,免费

将扫描的 PDF 文件拖放到上方的上传区域,选择文档语言,即可使用 Tesseract WASM 在浏览器中完成每页的搜索。无需上传,无需服务器,无需注册账号,无水印,无页数限制。从您选择扫描的税务文件、法律文件、医疗记录和档案资料到可搜索的 PDF 文件出现在您的下载文件夹中,这些文件始终保留在您的设备上。OCR 识别后,您可以使用“PDF 转文本”工具提取全文,使用“裁剪 PDF”和“旋转 PDF”工具裁剪和旋转扫描件,或者使用“注释 PDF”工具为新生成的可搜索页面添加注释。