法律团队——使扫描的合同可搜索
已签署的合同、契约和法庭文件通常会被扫描并以图像 PDF 格式存档。在本地进行 OCR 处理,即可在文档管理系统中搜索到每个条款,而无需将机密法律文件上传到云服务。
扫描的 PDF 文件实际上是文档的照片。它看起来像文本,但实际上并没有真正的文本数据,只有像素矩阵。因此,搜索功能无法使用,复制粘贴也失败,PDF 阅读器无法对其进行索引,文本提取工具也只能返回空结果。解决之道在于光学字符识别 (OCR):它读取每页的像素模式,识别字符,并重建文本。LuraPDF 将 Tesseract(全球使用最广泛的开源 OCR 引擎,由 Google 维护)嵌入到 WebAssembly 二进制文件中,直接在您的浏览器标签页中运行。该引擎只需下载一次,即可在您的设备上完全处理文档。无需文件上传,无需调用服务器 API,也无需远程处理。您扫描的纳税申报表、已签署的合同、病历或历史文档始终在您的设备本地运行。
隐私是选择基于浏览器的 OCR 而非基于服务器的方案的关键原因。扫描文档的敏感程度往往不成比例:人们会扫描纳税申报单、医疗记录、法律文件、银行对账单和身份证件。将这些文件上传到云端 OCR API(即使是拥有隐私政策的 API)意味着文件会通过互联网传输,存储在服务器上,经过处理流程,并以您无法控制的方式进行临时存储。LuraPDF 的架构从结构上消除了这种风险。Tesseract WASM 二进制文件在浏览器内部的沙盒 Web Worker 中运行。唯一移动的数据是 OCR 识别后的文本层,它会被写回内存中的 PDF 文件——所有操作都在本地进行。输出结果是一个可搜索的 PDF 文件,其中原始页面图像被完整保留,并在其下方添加了一个不可见的文本层,该文本层与 Tesseract 识别出的字符位置完美匹配。
各行各业都会积累大量的扫描版 PDF 文件。OCR 技术可以解锁这些文件。在以下工作流程中,本地私有 OCR 是唯一可接受的方法。
已签署的合同、契约和法庭文件通常会被扫描并以图像 PDF 格式存档。在本地进行 OCR 处理,即可在文档管理系统中搜索到每个条款,而无需将机密法律文件上传到云服务。
图书馆、档案馆和家谱研究人员会扫描历史报纸、信件、账簿和手稿。Tesseract 支持历史拉丁字体和非标准字符集。运行 OCR 功能,即可使百年历史的文档可搜索,而无需将脆弱的历史资料传输到第三方服务器。
默认情况下,数字化之前的学术论文、会议论文集和期刊扫描件无法搜索。需要对其进行光学字符识别 (OCR),才能启用 Ctrl+F 搜索、注释、提取引文以及导入参考文献管理工具。
扫描的费用收据和发票包含金额、日期和供应商名称等信息,这些信息都以图像像素的形式存储。OCR 技术可以将这些信息转换为可搜索、可选择的文本,从而实现复制粘贴到会计软件或进行后续数据提取。
以往的患者病历、转诊信和临床表格均以扫描件形式送达。由于受保护的健康信息过于敏感,无法上传至云端 OCR API。因此,建议在本地运行 OCR,以便在将受保护的健康信息保留在诊所设备上的同时,实现病历的可搜索性。
提取实体、分类内容或摘要 PDF 文档的文档智能管道需要文本层才能正常工作。我们使用 Tesseract WASM 在本地对扫描的 PDF 进行 OCR 处理,生成可搜索的 PDF 或原始文本文件,这些文件可用于输入 NLP 模型,而无需将文档数据暴露给外部 API。
浏览器中的 Tesseract WASM 将研究级 OCR 精度与本地处理的隐私保障相结合。以下是这种组合带来的效果。
上传扫描的 PDF 文件后,pdf.js 会将每一页渲染到 HTML 画布上,目标分辨率为 200 DPI(精度模式下可配置为 300 DPI)。画布图像数据通过 SharedArrayBuffer 传输到运行所选 LSTM 语言模型的 Tesseract.js Web Worker。Tesseract 执行布局分析,将页面分割成文本区域,然后将 LSTM 神经网络应用于每个区域以识别字符序列。输出结果是一个单词列表,其中包含识别出的 Unicode 字符序列和边界框坐标——即每个单词在页面上的像素位置。
Tesseract 完成页面处理后,pdf-lib 会利用识别出的文本和边界框在对应的 PDF 页面上绘制一个不可见的文本层。每个单词都使用 `page.drawText()` 函数放置在其检测到的坐标处,字体大小根据边界框高度计算,文本颜色为 `rgb(0, 0, 0)`,不透明度为零——视觉上不可见,但存在于 PDF 的文本内容流中。现代 PDF 查看器使用此文本流进行搜索、选择和副本操作。最终生成的 PDF 文件外观与原始扫描件完全相同,但支持 Ctrl+F 查找、文本选择,并且可以被文档管理系统和搜索引擎索引。
| 特征 | LuraPDF | 基于服务器的OCR(ilovepdf、Smallpdf) | Adobe Acrobat |
|---|---|---|---|
| 隐私 | 仅限浏览器访问——文件不会上传。 | 扫描文档已上传至远程服务器 | 本地,但需要付费订阅。 |
| 语言支持 | 通过 Tesseract WASM 支持 100 多种语言 | 语言种类繁多,通常较少。 | Acrobat:功能丰富,但多语言支持有限。 |
| 成本 | 永久免费,无页面限制 | 免费增值模式——页面限制或付费墙 | Acrobat订阅 |
| 需要注册 | 无 — 打开页面并运行 OCR | 需要账号才能打开多页文档 | 需要 Adobe ID 和订阅 |
扫描质量是影响OCR准确性的最重要因素。以下技巧可帮助您从Tesseract WASM获得最佳效果。
选择正确的语言——如果应用了错误的语言模型,Tesseract 的准确率会显著下降。如果您不确定,请选择多种可能的语言,Tesseract 将对它们进行投票。
更高的扫描分辨率可产生更好的 OCR 效果——300 DPI 的扫描精度明显高于 150 DPI 或更低的扫描精度,尤其对于小字体文本和非拉丁文字。
进行 OCR 识别前,请先裁剪和旋转页面——使用 LuraPDF 的“裁剪 PDF”和“旋转 PDF”工具,在运行 OCR 识别前将页面竖直对齐并去除页边距。倾斜或倒置的页面会降低识别质量。
对于移动设备上的大型多页文档,请切换到桌面浏览器——Tesseract WASM 非常消耗处理器资源,而移动设备的运行速度较慢。平板电脑或桌面版的 Chrome 或 Firefox 浏览器可提供最佳的吞吐量。
OCR 完成后,使用 PDF 转文本功能将识别出的完整文本提取为纯文本文件,以便粘贴到文字处理器、翻译工具或数据管道中。
对于混合使用多种文字的多语言文档(例如,包含英文和阿拉伯文部分的法律合同,或者包含英文文本和中文图表的文档),请在运行 OCR 之前选择所有相关语言,而不是分别处理各个部分。
将扫描的 PDF 文件拖放到上方的上传区域,选择文档语言,即可使用 Tesseract WASM 在浏览器中完成每页的搜索。无需上传,无需服务器,无需注册账号,无水印,无页数限制。从您选择扫描的税务文件、法律文件、医疗记录和档案资料到可搜索的 PDF 文件出现在您的下载文件夹中,这些文件始终保留在您的设备上。OCR 识别后,您可以使用“PDF 转文本”工具提取全文,使用“裁剪 PDF”和“旋转 PDF”工具裁剪和旋转扫描件,或者使用“注释 PDF”工具为新生成的可搜索页面添加注释。