Tutorial

Cách nhận dạng ký tự quang học (OCR) một tệp PDF đã quét và biến nó thành tệp có thể tìm kiếm được.

Tìm hiểu cách thức hoạt động của OCR (Nhận dạng ký tự quang học), những yếu tố ảnh hưởng đến độ chính xác và cách chuyển đổi tệp PDF được quét thành tài liệu có thể tìm kiếm, sao chép và dán bằng công cụ OCR dựa trên trình duyệt của LuraPDF.

LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 10 min read

Một file PDF được quét là một bức ảnh kỹ thuật số của tài liệu. Các trang là hình ảnh. Bạn không thể chọn văn bản, tìm kiếm từ, sao chép câu hoặc đưa nội dung vào bất kỳ công cụ xử lý văn bản nào. Đối với mục đích truy xuất thông tin, một file PDF được quét về cơ bản là không thể đọc được.

Công nghệ OCR (Nhận dạng ký tự quang học) giải quyết vấn đề này bằng cách phân tích các hình ảnh đó và tạo ra một lớp văn bản phủ lên nội dung hình ảnh. Kết quả: một tệp PDF trông giống hệt bản quét gốc nhưng chứa một lớp văn bản vô hình giúp mọi thứ có thể được chọn, tìm kiếm và sao chép.

Cách thức hoạt động của OCR

LuraPDF sử dụng Tesseract.js, phiên bản được biên dịch trên trình duyệt của Tesseract — một trong những công cụ nhận dạng ký tự quang học (OCR) mã nguồn mở chính xác nhất, được Google duy trì và ban đầu được phát triển bởi HP Labs. Tesseract sử dụng mô hình mạng thần kinh (dựa trên LSTM) được huấn luyện trên hàng triệu trang tài liệu thuộc hàng chục ngôn ngữ khác nhau.

Quy trình OCR:

Hiển thị trang: Mỗi trang PDF được hiển thị trên một hình ảnh canvas với độ phân giải cao (300 DPI trở lên để có độ chính xác tốt nhất).
Xử lý sơ bộ: Cải thiện hình ảnh — nhị phân hóa, giảm nhiễu, chỉnh độ nghiêng (làm thẳng các bản quét bị xoay)
Phân tích bố cục: Phát hiện các vùng văn bản, cột, bảng và các phần tử không phải văn bản.
Nhận dạng ký tự: Mạng nơ-ron phân loại từng ký tự từ các vùng văn bản đã được phân đoạn.
Xử lý hậu kỳ: Chấm điểm mô hình ngôn ngữ để phân biệt các ký tự tương tự (ví dụ: "l" so với "1", "O" so với "0")
Ghi văn bản vào PDF: Văn bản được nhận dạng sẽ được nhúng dưới dạng một lớp văn bản vô hình, được định vị chính xác phía trên các ký tự hình ảnh tương ứng.

Lớp văn bản ẩn bên dưới chính là thứ giúp kết quả tìm kiếm được. Giao diện trang vẫn giữ nguyên hình ảnh quét ban đầu — bạn thấy chính xác những gì mình đã quét, nhưng văn bản bên dưới giờ đây đã có thể đọc được bằng máy.

Các yếu tố ảnh hưởng đến độ chính xác của OCR

Độ chính xác thay đổi đáng kể tùy thuộc vào chất lượng dữ liệu đầu vào:

Độ phân giải quét

300 DPI là mức tối thiểu để đảm bảo độ chính xác. Dưới 200 DPI, khả năng nhận dạng ký tự sẽ giảm đáng kể. Nếu bạn đang quét tài liệu để nhận dạng ký tự quang học (OCR), hãy luôn quét ở độ phân giải 300 DPI trở lên.

Các tài liệu được quét ở độ phân giải 150 DPI trở xuống nên được quét lại ở độ phân giải cao hơn trước khi sử dụng OCR. Chạy OCR trên các bản quét có độ phân giải thấp sẽ cho kết quả kém chất lượng bất kể công cụ có tốt đến đâu.

Phông chữ và chất lượng in

Văn bản in (bản in laser, sách dàn trang): Độ chính xác 98–99% với bản gốc sạch sẽ.
Chữ viết tay chất lượng cao với các ký tự rõ ràng: 85–95%
Văn bản mờ hoặc nhạt màu: 80–95% tùy thuộc vào độ tương phản
Giấy sao chép than: 60–85%
Báo cũ / máy đánh chữ: 90–95% với bản quét rõ nét
Chữ viết tay kiểu chữ thảo: 40–70% — mạng nơ-ron nhận dạng ký tự quang học (OCR) gặp khó khăn với chữ thảo

Hướng trang

Các trang bị nghiêng hoặc xoay quá mức sẽ ảnh hưởng đến độ chính xác. Hầu hết các công cụ OCR, bao gồm cả Tesseract, đều tự động phát hiện và sửa lỗi xoay nhẹ (lên đến ~10 độ). Các trang bị xoay quá nhiều cần được sửa thủ công trước bằng cách sử dụng Rotate PDF.

Ngôn ngữ

Tesseract hỗ trợ hơn 100 ngôn ngữ. Công cụ OCR của LuraPDF tự động phát hiện tiếng Anh. Đối với các hệ chữ viết không phải Latinh hoặc tài liệu không phải tiếng Anh, việc chọn ngôn ngữ sẽ cải thiện độ chính xác đáng kể.

Hướng dẫn nhận dạng ký tự quang học (OCR) PDF bằng LuraPDF

Mở công cụ OCR: Điều hướng đến LuraPDF OCR PDF
Tải lên file PDF đã quét: Kéo và thả file của bạn vào.
Chọn ngôn ngữ (nếu không phải tiếng Anh): Chọn ngôn ngữ chính của tài liệu.
Nhấp vào "Chạy OCR": Quá trình xử lý diễn ra từng trang một trong trình duyệt của bạn. Thời gian xử lý thay đổi tùy thuộc vào độ dài tài liệu — việc quét một tài liệu 20 trang thường mất từ 30 đến 90 giây trên máy tính hiện đại.
Tải xuống tệp PDF có thể tìm kiếm: Kết quả là một tệp PDF chứa các hình ảnh quét gốc cộng với một lớp văn bản được nhúng.

Kiểm tra kết quả

Sau khi thực hiện nhận dạng ký tự quang học (OCR), hãy kiểm tra độ chính xác:

Chọn văn bản trên trang — văn bản phải được chọn chính xác trên các ký tự in.
Tìm kiếm (Ctrl+F / Cmd+F) một từ thông dụng — bạn sẽ tìm thấy nó.
Sao chép một đoạn văn và dán vào trình soạn thảo văn bản — kết quả phải dễ đọc.

Nếu độ chính xác kém, hãy kiểm tra chất lượng quét đầu vào trước khi thử các công cụ khác.

Khi nào nên chạy OCR trước các thao tác khác

OCR mở khóa các thao tác bổ sung của LuraPDF mà không hoạt động trên các tệp PDF chỉ chứa hình ảnh:

Nén PDF sau khi nhận dạng ký tự quang học (OCR): Sau khi trích xuất văn bản, các vùng hình ảnh đôi khi có thể được nén mạnh hơn.
Chuyển đổi PDF sang Word sau khi nhận dạng ký tự quang học (OCR): Chuyển đổi PDF đã được nhận dạng ký tự quang học sang Word sẽ cho ra văn bản có thể chỉnh sửa; chuyển đổi bản quét thô sẽ cho ra tệp Word có hình ảnh được nhúng.
Redact PDF sau khi OCR: Chức năng che mờ văn bản hoạt động tốt trên các tài liệu đã được OCR
Tìm kiếm và trích xuất: Tìm và sao chép thông tin cụ thể mà không cần nhập lại.

Bảo mật: OCR chạy trên trình duyệt của bạn

Tesseract.js thực hiện toàn bộ quy trình nhận dạng ký tự quang học (OCR) cục bộ bằng WebAssembly. Các tài liệu được quét của bạn — thường chứa hồ sơ y tế, báo cáo tài chính, tài liệu pháp lý hoặc thông tin nhận dạng cá nhân — không bao giờ rời khỏi thiết bị của bạn. Không có máy chủ từ xa nào xử lý tệp của bạn.

Đây là một lợi thế đáng kể so với các dịch vụ OCR trên đám mây, vốn bắt buộc phải nhận một bản sao của mọi thứ bạn xử lý.

Hạn chế của OCR dựa trên trình duyệt

Thời gian xử lý

Tesseract.js chậm hơn so với Tesseract phiên bản máy tính để bàn gốc hoặc các API OCR đám mây. Thời gian xử lý dự kiến khoảng 3-8 giây mỗi trang tùy thuộc vào phần cứng của bạn. Một tài liệu 50 trang có thể mất vài phút.

Bảng

Tesseract nhận diện nội dung bảng nhưng không tái tạo cấu trúc bảng trong lớp văn bản của PDF — văn bản sẽ được sắp xếp theo thứ tự đọc nhưng cấu trúc ô sẽ không được bảo toàn. Để trích xuất bảng có cấu trúc, hãy chuyển đổi PDF đã được OCR sang Word và định dạng lại bảng theo cách thủ công.

Ký hiệu toán học

Các phương trình và ký hiệu toán học theo kiểu LaTeX có độ chính xác thấp hơn. Mô hình Tesseract được tối ưu hóa cho văn bản ngôn ngữ tự nhiên.

Chữ viết tay

Như đã đề cập, độ chính xác của chữ viết tay kiểu chữ thảo bị hạn chế. Chữ viết tay kiểu chữ in thì tốt hơn. Đối với các tài liệu viết tay quan trọng, hãy kiểm tra thủ công từng trang.

Câu hỏi thường gặp

Văn bản được nhận dạng bằng OCR không khớp với các ký tự - đó có phải là lỗi không? Điều này có thể xảy ra với các bản quét bị lệch nghiêm trọng. Vị trí văn bản được tính toán từ vị trí các ký tự được phát hiện, nhưng nếu hình dạng trang không chuẩn, sự căn chỉnh có thể bị sai lệch. Hãy thử xoay PDF để sửa độ lệch trước khi chạy OCR.

Tôi có thể chỉ nhận dạng ký tự quang học (OCR) các trang cụ thể không? LuraPDF xử lý tất cả các trang. Nếu bạn chỉ cần nhận dạng ký tự quang học (OCR) trên các trang cụ thể, hãy trích xuất các trang đó trước bằng cách sử dụng Trích xuất trang PDF, chạy OCR, sau đó tùy chọn hợp nhất các kết quả.

Liệu công nghệ OCR có làm thay đổi hình thức hiển thị của tài liệu đã quét không? Không. Các hình ảnh quét gốc được giữ nguyên chính xác. Chỉ có một lớp văn bản vô hình được thêm vào.

Tôi có thể chạy OCR trên một tệp PDF đã có sẵn một số trang văn bản và một số trang được quét không? Đúng vậy — Tesseract xử lý các trang dựa trên hình ảnh và thêm một lớp văn bản. Các trang đã có lớp văn bản sẽ không bị ảnh hưởng.

Tài liệu của tôi bằng tiếng Ả Rập / tiếng Trung / tiếng Nhật — liệu phần mềm nhận dạng ký tự quang học (OCR) có hoạt động được không? Vâng, nhưng hãy chọn ngôn ngữ chính xác trong công cụ trước khi chạy. Độ chính xác của Tesseract đối với các ngôn ngữ CJK và ngôn ngữ viết từ phải sang trái khá tốt nhưng thay đổi nhiều hơn tùy thuộc vào chất lượng quét so với tài liệu chữ Latinh.

Công nghệ OCR chuyển đổi các kho lưu trữ tài liệu đã quét bị khóa thành thông tin có thể truy cập, tìm kiếm và xử lý được. Một tủ đầy hợp đồng đã quét trở thành một cơ sở dữ liệu có thể tìm kiếm. Một chồng hồ sơ y tế trở thành một tài liệu mà bạn thực sự có thể điều hướng. Quá trình này chỉ mất vài giây đến vài phút và chạy hoàn toàn trên thiết bị của bạn.