Hoàn toàn riêng tưXử lý tức thìMiễn phí mãi mãi

Nhận dạng ký tự quang học (OCR) PDF trực tuyến — Miễn phí, chỉ cần trình duyệt, hỗ trợ hơn 100 ngôn ngữ.

Chuyển đổi các tệp PDF được quét thành PDF văn bản có thể tìm kiếm mà không cần tải lên bất kỳ byte nào. Tesseract WASM chạy OCR trực tiếp trong trình duyệt của bạn. Hỗ trợ hơn 100 ngôn ngữ, không cần máy chủ, không cần đăng ký.

Chọn tệp PDF đã quét để nhận dạng ký tự quang học (OCR).

Kéo và thả tệp PDF đã quét hoặc hình ảnh của bạn vào đây, hoặc nhấp để duyệt. OCR chạy cục bộ trên trình duyệt của bạn — tài liệu của bạn không bao giờ rời khỏi thiết bị của bạn.

pdf· Max 100 MB

Biến các tệp PDF đã quét thành tệp có thể tìm kiếm được — mà không cần tải chúng lên.

Một tệp PDF được quét là một bức ảnh chụp tài liệu. Nó trông giống như văn bản, nhưng thực chất không có dữ liệu văn bản nào bên trong — chỉ là một ma trận các điểm ảnh. Chức năng tìm kiếm không hoạt động. Sao chép và dán không thành công. Các trình đọc PDF không thể lập chỉ mục. Các công cụ trích xuất văn bản trả về kết quả trống. Giải pháp là Nhận dạng ký tự quang học (OCR): một quy trình đọc mẫu điểm ảnh trên mỗi trang, xác định các ký tự và tái tạo lại văn bản. LuraPDF tích hợp Tesseract — công cụ OCR mã nguồn mở được sử dụng rộng rãi nhất trên thế giới, do Google duy trì — dưới dạng tệp nhị phân WebAssembly chạy trực tiếp bên trong tab trình duyệt của bạn. Công cụ này chỉ tải xuống một lần và sau đó xử lý toàn bộ tài liệu của bạn trên thiết bị. Không cần tải lên tệp, không cần gọi API máy chủ, không cần xử lý từ xa. Tờ khai thuế đã quét, hợp đồng đã ký, hồ sơ bệnh nhân hoặc tài liệu lịch sử của bạn sẽ không bao giờ rời khỏi máy tính của bạn.

Bảo mật là lý do quan trọng nhất để lựa chọn giải pháp OCR dựa trên trình duyệt thay vì các giải pháp dựa trên máy chủ. Tài liệu được quét có độ nhạy cảm rất cao: mọi người quét tờ khai thuế, hồ sơ y tế, hồ sơ pháp lý, sao kê ngân hàng và giấy tờ tùy thân. Việc tải những tài liệu đó lên API OCR trên đám mây — ngay cả khi API đó có chính sách bảo mật — có nghĩa là tệp tin sẽ di chuyển qua internet, nằm trên máy chủ, đi qua các quy trình xử lý và được lưu trữ tạm thời theo những cách nằm ngoài tầm kiểm soát của bạn. Kiến trúc của LuraPDF loại bỏ rủi ro đó về mặt cấu trúc. Tệp nhị phân Tesseract WASM chạy trong một Web Worker được cách ly bên trong trình duyệt của bạn. Dữ liệu duy nhất di chuyển là lớp văn bản đã được OCR ghi lại vào tệp PDF trong bộ nhớ — tất cả đều cục bộ. Kết quả đầu ra là một tệp PDF có thể tìm kiếm, trong đó hình ảnh trang gốc được bảo toàn chính xác và một lớp văn bản vô hình được thêm vào bên dưới, được căn chỉnh hoàn hảo để khớp với vị trí ký tự mà Tesseract đã xác định.

Cách chạy OCR trên PDF trực tuyến

Tải lên bản PDF đã quét của bạn

Kéo thả tệp PDF đã quét hoặc ảnh vào khu vực tải lên. Tệp sẽ được đọc vào bộ nhớ trình duyệt — không có gì được gửi đến máy chủ. Các tài liệu đã quét nhiều trang, sách và hồ sơ lưu trữ đều hoạt động mà không bị giới hạn số trang do LuraPDF đặt ra.

Chọn ngôn ngữ

Chọn ngôn ngữ chính của tài liệu từ bộ chọn ngôn ngữ. Đối với các tài liệu đa ngôn ngữ — một hợp đồng có cả phần tiếng Anh và tiếng Pháp, hoặc một bài báo học thuật có trích dẫn tiếng Đức — hãy chọn tất cả các ngôn ngữ liên quan. Tesseract sử dụng các mô hình ngôn ngữ kết hợp để nhận dạng các ký tự trên tất cả các hệ chữ viết đã chọn.

Thiết lập tùy chọn chất lượng

Bạn có thể chọn giữa chế độ Tốc độ (nhanh hơn, độ chính xác thấp hơn một chút, phù hợp với các bản quét có phông chữ hiện đại, chất lượng cao) và chế độ Độ chính xác (chậm hơn, sử dụng toàn bộ công cụ Tesseract LSTM, được khuyến nghị cho các bản quét chất lượng thấp, phông chữ cổ và các hệ chữ viết không phải Latinh). Chế độ Độ chính xác sẽ chạy toàn bộ mô hình mạng thần kinh cho mỗi trang.

Xem trước lớp văn bản

Sau khi quá trình nhận dạng ký tự quang học (OCR) hoàn tất, hãy xem trước văn bản đã được nhận dạng bên cạnh trang gốc để xác minh độ chính xác. Tesseract sẽ làm nổi bật các khung bao quanh mỗi từ được nhận dạng — bạn có thể phát hiện lỗi trong các vùng quét chất lượng thấp trước khi tải xuống.

Tải xuống tệp PDF có thể tìm kiếm

Nhấp vào Tải xuống. pdf-lib sẽ ghi một lớp văn bản vô hình lên mỗi trang tại chính xác các vị trí ký tự mà Tesseract đã xác định. Kết quả đầu ra là một tệp PDF có thể tìm kiếm tiêu chuẩn — hình ảnh được giữ nguyên vẹn, và các chức năng Ctrl+F, bản sao, chọn và lập chỉ mục toàn văn đều hoạt động trong kết quả.

Hoàn toàn riêng tư — nhận dạng ký tự quang học (OCR) tại địa phương

Tesseract WASM chạy bên trong tab trình duyệt của bạn trong một Web Worker được cách ly. Tài liệu được quét của bạn không bao giờ rời khỏi thiết bị — không tải lên, không sử dụng API máy chủ, không lưu trữ tạm thời trên đám mây. Đây là sự đảm bảo quyền riêng tư thiết yếu cho các tài liệu tài chính, pháp lý và y tế được quét.

Tesseract WASM — hơn 100 ngôn ngữ

LuraPDF sử dụng Tesseract.js, phiên bản WebAssembly của công cụ nhận dạng ký tự quang học (OCR) Tesseract của Google. Hơn 100 mô hình ngôn ngữ có sẵn, bao gồm chữ Latinh, chữ Cyrillic, chữ Ả Rập, chữ Trung Quốc (giản thể và truyền thống), chữ Nhật, chữ Hàn, chữ Do Thái, chữ Hindi, và nhiều hơn nữa. Chọn nhiều ngôn ngữ cho các tài liệu có nhiều hệ chữ viết khác nhau.

Đầu ra PDF có thể tìm kiếm

Kết quả đầu ra giữ nguyên chính xác hình ảnh trang được quét ban đầu và thêm một lớp văn bản vô hình tại các vị trí ký tự chính xác. Kết quả là một tệp PDF có thể tìm kiếm được — Ctrl+F tìm kiếm từ, văn bản có thể được chọn và sao chép, và các hệ thống quản lý tài liệu có thể lập chỉ mục cho tệp này.

Tùy chọn xuất chỉ văn bản

Ngoài khả năng xuất file PDF có thể tìm kiếm, LuraPDF còn có thể xuất văn bản thô đã được nhận dạng ký tự quang học (OCR) dưới dạng file .txt thông thường. Điều này rất hữu ích để đưa văn bản đã được nhận dạng vào các công cụ tiếp theo — trình xử lý văn bản, hệ thống xử lý ngôn ngữ tự nhiên (NLP), công cụ dịch thuật hoặc nhập dữ liệu vào bảng tính.

Giữ nguyên bố cục ban đầu

Hình ảnh trang gốc không bị thay đổi. Dữ liệu hộp giới hạn của Tesseract ánh xạ mỗi ký tự được nhận dạng đến vị trí pixel của nó trên trang — lớp văn bản vô hình được đặt chính xác tại các tọa độ đó. Hình thức hiển thị của mỗi trang giống hệt với bản quét gốc.

Miễn phí, không cần đăng ký, không có hình mờ

Không cần tài khoản, không giới hạn số trang mỗi ngày, không có hình mờ trên file PDF có thể tìm kiếm. Chạy OCR trên tài liệu đã quét bao nhiêu lần tùy thích từ bất kỳ trình duyệt hiện đại nào. Tài liệu dung lượng lớn sẽ xử lý chậm hơn nhưng không giới hạn số lần quét.

Ai sử dụng LuraPDF OCR PDF

Các tệp PDF được quét đang tích lũy trong mọi ngành nghề. Công nghệ OCR giúp khai thác chúng. Dưới đây là các quy trình làm việc mà OCR cục bộ, riêng tư là phương pháp duy nhất được chấp nhận.

Đội ngũ pháp lý — hãy giúp các hợp đồng đã quét có thể tìm kiếm được.

Các hợp đồng đã ký kết, giấy tờ nhà đất và hồ sơ tòa án thường được quét và lưu trữ dưới dạng PDF hình ảnh. Sử dụng công nghệ OCR để xử lý chúng cục bộ giúp mọi điều khoản có thể tìm kiếm được trong hệ thống quản lý tài liệu mà không cần tải các tài liệu pháp lý bí mật lên dịch vụ đám mây.

Các nhà lưu trữ — số hóa các tài liệu lịch sử

Các thư viện, kho lưu trữ và nhà nghiên cứu phả hệ thường quét các tờ báo, thư từ, sổ sách kế toán và bản thảo lịch sử. Tesseract hỗ trợ các phông chữ Latinh cổ và các bộ ký tự không chuẩn. Chạy OCR để tìm kiếm các tài liệu có tuổi đời hàng thế kỷ mà không cần truyền tải các tài liệu lịch sử dễ hư hỏng đến máy chủ của bên thứ ba.

Các nhà nghiên cứu — tìm kiếm các bài báo học thuật đã được quét

Các bài báo học thuật thời kỳ tiền kỹ thuật số, kỷ yếu hội nghị và bản quét tạp chí không thể tìm kiếm được theo mặc định. Hãy sử dụng công nghệ OCR để hỗ trợ tìm kiếm bằng Ctrl+F, chú thích, trích xuất tài liệu tham khảo và đưa chúng vào các công cụ quản lý tài liệu tham khảo.

Kế toán — trích xuất số liệu từ các hóa đơn đã được quét.

Các biên lai chi phí và hóa đơn được quét chứa số tiền, ngày tháng và tên nhà cung cấp được mã hóa trong các điểm ảnh. Công nghệ OCR chuyển đổi chúng thành văn bản có thể tìm kiếm và chọn lọc — cho phép sao chép và dán vào phần mềm kế toán hoặc trích xuất dữ liệu tiếp theo.

Đội ngũ y tế — số hóa hồ sơ bệnh nhân đã quét

Hồ sơ bệnh án cũ, thư chuyển viện và các biểu mẫu lâm sàng được lưu trữ dưới dạng bản quét. Thông tin sức khỏe được bảo mật quá nhạy cảm để tải lên API OCR trên đám mây. Hãy chạy OCR cục bộ để giúp tìm kiếm được hồ sơ trong khi vẫn giữ thông tin sức khỏe được bảo mật trên thiết bị của phòng khám.

Các nhà phát triển — hãy thêm lớp văn bản cho các quy trình xử lý ngôn ngữ tự nhiên (NLP)

Các quy trình xử lý thông tin tài liệu, chẳng hạn như trích xuất thực thể, phân loại nội dung hoặc tóm tắt tài liệu PDF, đều cần một lớp văn bản để hoạt động. Công nghệ OCR quét PDF cục bộ bằng Tesseract WASM tạo ra các tệp PDF có thể tìm kiếm hoặc các tệp văn bản thô để cung cấp dữ liệu cho các mô hình xử lý ngôn ngữ tự nhiên (NLP) mà không cần tiết lộ dữ liệu tài liệu cho các API bên ngoài.

Tại sao nên sử dụng OCR dựa trên trình duyệt?

Tesseract WASM trên trình duyệt kết hợp độ chính xác OCR cấp độ nghiên cứu với sự đảm bảo quyền riêng tư nhờ xử lý cục bộ. Dưới đây là những gì sự kết hợp đó mang lại.

Các tài liệu được quét có chứa dữ liệu cá nhân — số an sinh xã hội, số tài khoản, chẩn đoán y tế — không bao giờ được tải lên và không bao giờ có nguy cơ bị chặn hoặc rò rỉ dữ liệu phía máy chủ.
Hơn 100 mô hình ngôn ngữ bao gồm các hệ chữ viết chính trên thế giới — Latin, Cyrillic, Arabic, CJK, Devanagari, Hebrew, và nhiều hệ chữ khác — trong một công cụ duy nhất mà không cần mua thêm ngôn ngữ nào.
Kết quả tìm kiếm được nghĩa là các thao tác Ctrl+F, chọn văn bản, sao chép-dán và lập chỉ mục toàn văn đều hoạt động ngay lập tức sau khi nhận dạng ký tự quang học (OCR) — tài liệu được quét hoạt động giống như một tệp PDF kỹ thuật số gốc.
Hình ảnh trang gốc được giữ nguyên hoàn toàn — OCR chỉ thêm một lớp văn bản, chứ không thay đổi hay tái tạo lại nội dung hình ảnh. Các trang được quét trông giống hệt nhau trước và sau khi xử lý.
Hiệu năng của WebAssembly cho phép các trình duyệt máy tính để bàn hiện đại chạy Tesseract với tốc độ gần như tốc độ gốc — thông lượng điển hình là 5–15 giây mỗi trang ở chế độ chính xác tối đa.
Miễn phí, không giới hạn số lượng trang hay hạn mức sử dụng hàng ngày — nhận dạng ký tự quang học (OCR) một cuốn sách đã quét 500 trang hoặc một hóa đơn duy nhất mà không phát sinh thêm chi phí.

LuraPDF thực hiện nhận dạng ký tự quang học (OCR) trên các tệp PDF như thế nào?

Khi bạn tải lên một tệp PDF đã quét, pdf.js sẽ hiển thị từng trang lên một canvas HTML với độ phân giải mục tiêu là 200 DPI (có thể cấu hình thành 300 DPI cho chế độ Chính xác). Dữ liệu hình ảnh canvas được truyền qua SharedArrayBuffer đến một Tesseract.js Web Worker đang chạy các mô hình ngôn ngữ LSTM đã chọn. Tesseract thực hiện phân tích bố cục để phân đoạn trang thành các vùng văn bản, sau đó áp dụng mạng nơ-ron LSTM cho từng vùng để nhận dạng chuỗi ký tự. Kết quả đầu ra là một danh sách các từ với chuỗi ký tự Unicode được nhận dạng và tọa độ hộp giới hạn — vị trí pixel trên trang nơi mỗi từ xuất hiện.

Sau khi Tesseract xử lý xong một trang, pdf-lib sử dụng văn bản và khung bao được nhận dạng để vẽ một lớp văn bản vô hình trên trang PDF tương ứng. Mỗi từ được đặt tại tọa độ đã phát hiện bằng cách sử dụng `page.drawText()` với kích thước phông chữ được tính toán từ chiều cao của khung bao và màu văn bản là `rgb(0, 0, 0)` với độ mờ bằng không — vô hình về mặt hình ảnh, nhưng vẫn hiện diện trong luồng nội dung văn bản của PDF. Các trình xem PDF hiện đại sử dụng luồng văn bản này cho các thao tác tìm kiếm, chọn và bản sao . Kết quả là một tệp PDF trông giống hệt bản quét gốc nhưng phản hồi tổ hợp phím Ctrl+F, hỗ trợ chọn văn bản và có thể được lập chỉ mục bởi các hệ thống quản lý tài liệu và công cụ tìm kiếm.

Nhận dạng ký tự quang học (OCR) PDF: LuraPDF so với các lựa chọn thay thế

Tính năng	LuraPDF	Nhận dạng ký tự quang học (OCR) dựa trên máy chủ (ilovepdf, Smallpdf)	Adobe Acrobat
Sự riêng tư	Chỉ hiển thị trên trình duyệt — tập tin không bao giờ được tải lên.	Tài liệu đã quét được tải lên máy chủ từ xa.	Địa điểm có sẵn, nhưng cần đăng ký trả phí.
Hỗ trợ ngôn ngữ	Hỗ trợ hơn 100 ngôn ngữ thông qua Tesseract WASM.	Tùy thuộc vào từng trường hợp — thường thì số lượng ngôn ngữ sẽ ít hơn.	Acrobat: nhiều tính năng, nhưng số lượng ngôn ngữ hỗ trợ có hạn.
Trị giá	Miễn phí vĩnh viễn, không giới hạn số trang.	Mô hình Freemium — giới hạn số trang hoặc yêu cầu trả phí	$$$ Đăng ký Acrobat
Cần đăng ký	Không có gì cả — hãy mở trang và chạy OCR.	Cần có tài khoản để xem tài liệu nhiều trang.	Cần có Adobe ID và gói đăng ký.

Mẹo để đạt độ chính xác OCR tốt nhất

Chất lượng quét là yếu tố quan trọng nhất ảnh hưởng đến độ chính xác của OCR. Những mẹo này sẽ giúp bạn đạt được kết quả tốt nhất từ Tesseract WASM.

Tip 1:
Hãy chọn ngôn ngữ chính xác — Độ chính xác của Tesseract giảm đáng kể khi áp dụng mô hình ngôn ngữ không chính xác. Nếu bạn không chắc chắn, hãy chọn nhiều ngôn ngữ có khả năng đúng và Tesseract sẽ đưa ra quyết định giữa chúng.
Tip 2:
Độ phân giải quét cao hơn cho ra kết quả OCR tốt hơn — quét ở độ phân giải 300 DPI đạt độ chính xác cao hơn đáng kể so với 150 DPI hoặc thấp hơn, đặc biệt là đối với văn bản cỡ chữ nhỏ và các hệ chữ không phải Latinh.
Tip 3:
Cắt và xoay trước khi nhận dạng ký tự quang học (OCR) — sử dụng các công cụ Cắt PDF và Xoay PDF của LuraPDF để căn chỉnh các trang thẳng đứng và loại bỏ lề trước khi chạy OCR. Các trang bị nghiêng hoặc lộn ngược sẽ làm giảm chất lượng nhận dạng.
Tip 4:
Đối với các tài liệu nhiều trang dung lượng lớn trên thiết bị di động, hãy chuyển sang trình duyệt máy tính để bàn — Tesseract WASM tiêu tốn nhiều tài nguyên xử lý và thiết bị di động sẽ chậm hơn. Trình duyệt Chrome hoặc Firefox trên máy tính bảng hoặc máy tính để bàn cho hiệu suất tốt nhất.
Tip 5:
Sau khi thực hiện OCR, hãy sử dụng PDF to Text để trích xuất toàn bộ văn bản đã được nhận dạng dưới dạng tệp văn bản thuần túy để dán vào trình xử lý văn bản, công cụ dịch thuật hoặc quy trình xử lý dữ liệu.
Tip 6:
Đối với các tài liệu đa ngôn ngữ có nhiều hệ chữ khác nhau — ví dụ như hợp đồng pháp lý có các phần tiếng Anh và tiếng Ả Rập, hoặc bài báo có văn bản tiếng Anh và số liệu tiếng Trung — hãy chọn tất cả các ngôn ngữ liên quan trước khi chạy OCR thay vì xử lý từng phần riêng biệt.

Công cụ liên quan

Câu hỏi thường gặp

Tôi có thể chạy phần mềm nhận dạng ký tự quang học (OCR) trên tệp PDF miễn phí mà không cần tải lên không?

Đúng vậy. LuraPDF sử dụng Tesseract WASM — phiên bản WebAssembly của công cụ nhận dạng ký tự quang học Tesseract của Google — hoạt động hoàn toàn bên trong trình duyệt của bạn. Không cần tải tệp lên, không cần máy chủ, không cần tài khoản. Chỉ cần kéo thả tệp PDF đã quét, chọn ngôn ngữ và tải xuống tệp PDF có thể tìm kiếm miễn phí.

Độ chính xác của Tesseract WASM OCR như thế nào?

Công nghệ LSTM của Tesseract đạt cấp độ nghiên cứu và đạt độ chính xác ký tự từ 95–99% trên các bản quét rõ nét, độ phân giải cao (300 DPI) của các phông chữ hiện đại. Độ chính xác giảm đối với các bản quét độ phân giải thấp, chữ viết tay, phông chữ bất thường và hình ảnh bị nén mạnh. Việc lựa chọn mô hình ngôn ngữ chính xác là thiết lập có tác động lớn nhất đến độ chính xác.

Công nghệ OCR hỗ trợ những ngôn ngữ nào?

Hỗ trợ hơn 100 ngôn ngữ, bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Bồ Đào Nha, tiếng Ả Rập, tiếng Trung giản thể, tiếng Trung phồn thể, tiếng Nhật, tiếng Hàn, tiếng Nga, tiếng Hindi, tiếng Do Thái, tiếng Thái và nhiều ngôn ngữ khác. Chọn nhiều ngôn ngữ cho các tài liệu đa ngôn ngữ — Tesseract sử dụng tất cả các mô hình đã chọn đồng thời.

Việc sử dụng công nghệ OCR để quét tài liệu mật trực tuyến có an toàn không?

Có — với LuraPDF, vì tệp tin không bao giờ rời khỏi thiết bị của bạn. Tesseract WASM chạy trong một Web Worker được bảo vệ trong trình duyệt của bạn. Không có dữ liệu nào được truyền đến máy chủ. Điều này làm cho LuraPDF trở thành lựa chọn phù hợp cho việc nhận dạng ký tự quang học (OCR) các tờ khai thuế đã quét, hồ sơ y tế, hồ sơ pháp lý và các tài liệu tài chính không thể tải lên các dịch vụ bên ngoài.

Liệu OCR trên trình duyệt có chậm hơn OCR trên máy chủ không?

Đúng vậy, OCR WASM trên trình duyệt chậm hơn so với OCR phía máy chủ vì các API OCR đám mây hiện đại chạy trên phần cứng đa GPU. Tesseract WASM của LuraPDF thường xử lý 5-15 giây mỗi trang ở chế độ Chính xác trên CPU máy tính để bàn hiện đại. Đây là sự đánh đổi chấp nhận được để đảm bảo quyền riêng tư. Đối với các tài liệu rất lớn trên các thiết bị có bộ nhớ thấp, nên sử dụng trình duyệt máy tính để bàn thay vì thiết bị di động.

Liệu OCR có làm thay đổi hình thức của file PDF đã quét không?

Không. Hình ảnh trang gốc được giữ nguyên chính xác. OCR thêm một lớp văn bản vô hình tại các vị trí ký tự được nhận dạng — nội dung hiển thị của mỗi trang giống hệt nhau từng byte so với bản quét đầu vào. Điều thay đổi là văn bản trở nên có thể tìm kiếm, chọn và sao chép được.

PDF được tạo ra từ công nghệ OCR sẽ có hình mờ không?

Không. LuraPDF không thêm bất kỳ hình mờ, tem hoặc lớp phủ quảng cáo nào vào bất kỳ tệp đầu ra nào. Tệp PDF có thể tìm kiếm mà bạn tải xuống là một tài liệu sạch, chỉ có lớp văn bản vô hình được thêm vào.

Tôi có thể nhận dạng ký tự quang học (OCR) file PDF trên điện thoại không?

Có, đối với các tài liệu ngắn. Tesseract WASM tiêu tốn nhiều tài nguyên tính toán. Quét 10 trang trên điện thoại thông minh hiện đại thường mất 1-3 phút ở chế độ Chính xác. Đối với các tài liệu dài — trên 50 trang — nên sử dụng trình duyệt trên máy tính để bàn để có thời gian xử lý hợp lý hơn.

Liệu công nghệ OCR có giữ nguyên bố cục trang ban đầu không?

Đúng vậy. Hình ảnh trên trang không được vẽ lại hoặc thay đổi kích thước. Kết quả hộp giới hạn của Tesseract được sử dụng để định vị lớp văn bản tại các tọa độ chính xác từng ký tự trên hình ảnh gốc. Các cột, bảng, tiêu đề, chú thích và bố cục nhiều cột đều được nhận dạng và lớp văn bản tuân theo cấu trúc hình ảnh gốc.

Tôi có thể nhận dạng ký tự quang học (OCR) một tệp PDF đa ngôn ngữ có văn bản bằng nhiều hệ chữ viết khác nhau không?

Đúng vậy. Hãy chọn tất cả các ngôn ngữ có trong tài liệu trước khi chạy OCR. Ví dụ, một hợp đồng có các phần bằng tiếng Anh và tiếng Ả Rập: hãy chọn cả tiếng Anh và tiếng Ả Rập. Tesseract sẽ áp dụng đồng thời tất cả các mô hình ngôn ngữ đã chọn và sử dụng phương pháp bỏ phiếu để xác định ký tự phù hợp nhất cho từng vùng. Điều này chính xác hơn so với việc xử lý từng phần riêng lẻ.

Nhận dạng ký tự quang học (OCR) PDF trên máy tính cá nhân — hỗ trợ hơn 100 ngôn ngữ, kết quả có thể tìm kiếm, miễn phí.

Chỉ cần kéo thả tệp PDF đã quét vào khu vực tải lên phía trên, chọn ngôn ngữ tài liệu và để Tesseract WASM giúp bạn tìm kiếm được mọi trang — hoàn toàn ngay trên trình duyệt của bạn. Không cần tải lên, không cần máy chủ, không cần tài khoản, không có hình mờ, không giới hạn số trang. Các tài liệu thuế, hồ sơ pháp lý, hồ sơ y tế và tài liệu lưu trữ đã quét của bạn sẽ được lưu giữ trên thiết bị từ lúc bạn chọn chúng cho đến khi tệp PDF có thể tìm kiếm được nằm trong thư mục tải xuống của bạn. Sau khi nhận dạng ký tự quang học (OCR), hãy trích xuất toàn văn bằng công cụ PDF to Text, cắt và xoay bản quét bằng các công cụ Crop PDF và Rotate PDF, hoặc chú thích các trang mới có thể tìm kiếm được bằng công cụ Annotate PDF.