Tutorial

Cara Melakukan OCR pada PDF Hasil Pindai dan Membuatnya Dapat Dicari

Pelajari cara kerja OCR (Optical Character Recognition), faktor-faktor yang memengaruhi akurasi, dan cara mengubah PDF hasil pemindaian menjadi dokumen yang dapat dicari dan disalin-tempel menggunakan alat OCR berbasis browser LuraPDF.

LuraPDF Team
LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 6 min read

PDF hasil pemindaian adalah foto digital dari sebuah dokumen. Halaman-halamannya berupa gambar. Anda tidak dapat memilih teks, mencari kata, menyalin kalimat, atau memasukkan konten ke alat pengolah teks apa pun. Untuk tujuan pengambilan informasi, PDF hasil pemindaian pada dasarnya tidak transparan.

OCR (Optical Character Recognition) mengatasi masalah ini dengan menganalisis gambar-gambar tersebut dan membuat lapisan teks yang melapisi konten visual. Hasilnya: PDF yang terlihat identik dengan hasil pindaian asli tetapi berisi lapisan teks tak terlihat yang membuat semuanya dapat dipilih, dicari, dan disalin.

Cara Kerja OCR

LuraPDF menggunakan Tesseract.js, versi Tesseract yang dikompilasi untuk browser — salah satu mesin OCR sumber terbuka paling akurat, yang dikelola oleh Google dan awalnya dikembangkan oleh HP Labs. Tesseract menggunakan model jaringan saraf (berbasis LSTM) yang dilatih pada jutaan halaman dokumen dalam puluhan bahasa.

Alur kerja OCR:

  1. Rendering halaman: Setiap halaman PDF dirender ke gambar kanvas dengan resolusi tinggi (300+ DPI untuk akurasi terbaik)
  2. Pra-pemrosesan: Peningkatan citra — binarisasi, pengurangan noise, deskewing (meluruskan hasil pemindaian yang berputar)
  3. Analisis tata letak: Mendeteksi area teks, kolom, tabel, dan elemen non-teks
  4. Pengenalan karakter: Jaringan saraf mengklasifikasikan setiap karakter dari wilayah teks yang telah disegmentasi.
  5. Pemrosesan akhir: Pemberian skor model bahasa untuk membedakan karakter yang serupa (misalnya, "l" vs "1", "O" vs "0")
  6. Penulisan PDF: Teks yang dikenali disematkan sebagai lapisan teks tak terlihat yang diposisikan tepat di atas karakter visual yang sesuai.

Lapisan teks tak terlihat inilah yang membuat hasilnya dapat dicari. Tampilan visual halaman tetap sama dengan gambar hasil pemindaian asli — Anda melihat persis apa yang Anda pindai, tetapi teks di bawahnya kini dapat dibaca oleh mesin.

Faktor-faktor yang Mempengaruhi Akurasi OCR

Akurasi sangat bervariasi tergantung pada kualitas input:

Resolusi pemindaian

300 DPI adalah resolusi minimum untuk akurasi yang andal. Di bawah 200 DPI, pengenalan karakter akan menurun secara signifikan. Jika Anda memindai dokumen untuk OCR, selalu pindai pada resolusi 300 DPI atau lebih tinggi.

Dokumen yang dipindai dengan resolusi 150 DPI atau kurang harus dipindai ulang dengan resolusi lebih tinggi sebelum OCR. Menjalankan OCR pada hasil pindaian beresolusi rendah akan menghasilkan hasil yang buruk, tidak peduli seberapa bagus mesin OCR yang digunakan.

Kualitas font dan cetak

  • Teks ​​tercetak (hasil cetak printer laser, buku yang dicetak): Akurasi 98–99% dengan dokumen asli yang bersih.
  • Tulisan tangan berkualitas tinggi dengan karakter yang jelas: 85–95%
  • Teks ​​samar atau pudar: 80–95% tergantung pada kontras
  • Kertas fotokopi karbon: 60–85%
  • Koran lama / mesin tik: 90–95% dengan hasil pindaian yang bersih
  • Tulisan tangan kursif: 40–70% — OCR jaringan saraf kesulitan dengan tulisan kursif

Orientasi halaman

Halaman yang miring atau berputar parah akan mengurangi akurasi. Sebagian besar mesin OCR, termasuk Tesseract, secara otomatis mendeteksi dan mengoreksi rotasi kecil (hingga ~10 derajat). Halaman yang berputar parah harus dikoreksi secara manual terlebih dahulu menggunakan Rotate PDF.

Bahasa

Tesseract mendukung lebih dari 100 bahasa. Alat OCR LuraPDF secara otomatis mendeteksi bahasa Inggris. Untuk aksara non-Latin atau dokumen non-Inggris, pemilihan bahasa secara substansial meningkatkan akurasi.

Cara OCR PDF dengan LuraPDF

  1. Buka alat OCR: Arahkan ke LuraPDF OCR PDF
  2. Unggah PDF hasil pindaian: Seret dan lepas file Anda
  3. Pilih bahasa (jika bukan bahasa Inggris): Pilih bahasa utama dokumen
  4. Klik "Jalankan OCR": Pemrosesan terjadi halaman demi halaman di browser Anda. Waktu bervariasi tergantung panjang dokumen — pemindaian 20 halaman biasanya membutuhkan waktu 30–90 detik pada komputer modern.
  5. Unduh PDF yang dapat dicari: Hasilnya adalah PDF yang berisi gambar hasil pemindaian asli ditambah lapisan teks yang disematkan.

Menguji Hasilnya

Setelah OCR, verifikasi keakuratannya:

  • Pilih teks pada halaman — teks harus dapat dipilih tepat di atas karakter yang tercetak.
  • Cari (Ctrl+F / Cmd+F) kata yang umum — kata tersebut seharusnya ditemukan
  • Salin sebuah paragraf dan tempelkan ke editor teks — hasilnya harus mudah dibaca.

Jika akurasinya buruk, periksa kualitas pemindaian input terlebih dahulu sebelum mencoba alat lain.

Kapan Menjalankan OCR Sebelum Operasi Lainnya

OCR membuka operasi LuraPDF tambahan yang tidak berfungsi pada PDF gambar murni:

  • Kompres PDF setelah OCR: Setelah teks diekstrak, area gambar terkadang dapat dikompresi lebih agresif.
  • PDF ke Word setelah OCR: Mengonversi PDF yang telah di-OCR ke Word menghasilkan teks yang dapat diedit; mengkonversi hasil pindaian mentah menghasilkan file Word dengan gambar yang disematkan
  • Sunting PDF setelah OCR: Penyuntingan berbasis teks berfungsi dengan benar pada dokumen yang telah di-OCR.
  • Cari dan ekstrak: Temukan dan salin informasi spesifik tanpa perlu mengetik ulang

Privasi: OCR Berjalan di Browser Anda

Tesseract.js menjalankan seluruh proses OCR secara lokal menggunakan WebAssembly. Dokumen yang Anda pindai — yang sering berisi catatan medis, laporan keuangan, dokumen hukum, atau informasi identitas pribadi — tidak pernah meninggalkan perangkat Anda. Tidak ada server jarak jauh yang memproses file Anda.

Ini merupakan keunggulan signifikan dibandingkan layanan OCR berbasis cloud yang wajib menerima salinan dari semua yang Anda proses.

Keterbatasan OCR Berbasis Browser

Waktu pengerjaan

Tesseract.js lebih lambat daripada Tesseract desktop asli atau API OCR berbasis cloud. Perkirakan sekitar 3–8 detik per halaman tergantung pada perangkat keras Anda. Dokumen berisi 50 halaman mungkin membutuhkan waktu beberapa menit.

Tabel

Tesseract mengenali isi tabel tetapi tidak merekonstruksi struktur tabel pada lapisan teks PDF — teks akan berada dalam urutan baca tetapi struktur sel tidak akan dipertahankan. Untuk ekstraksi tabel terstruktur, konversikan PDF hasil OCR ke Word dan format ulang tabel secara manual.

Notasi matematika

Persamaan dan simbol matematika bergaya LaTeX memiliki akurasi yang lebih rendah. Model Tesseract dioptimalkan untuk teks bahasa alami.

Tulisan Tangan

Seperti yang telah disebutkan, akurasi tulisan tangan kursif terbatas. Tulisan tangan cetak lebih baik. Untuk dokumen tulisan tangan yang penting, periksa setiap halaman secara manual.

Pertanyaan yang Sering Diajukan

Teks ​​hasil OCR tidak sejajar dengan karakter — apakah ini bug? Hal ini dapat terjadi pada hasil pemindaian yang sangat miring. Posisi teks dihitung dari posisi karakter yang terdeteksi, tetapi jika geometri halaman tidak standar, perataan dapat bergeser. Cobalah putar PDF untuk memperbaiki kemiringan sebelum menjalankan OCR.

Bisakah saya melakukan OCR hanya pada halaman-halaman tertentu? LuraPDF memproses semua halaman. Jika Anda hanya memerlukan OCR pada halaman tertentu, ekstrak halaman tersebut terlebih dahulu menggunakan Ekstrak Halaman PDF, jalankan OCR, lalu secara opsional gabungkan hasilnya.

Apakah OCR mengubah tampilan visual dokumen yang saya pindai? Tidak. Gambar hasil pemindaian asli dipertahankan persis seperti aslinya. Hanya lapisan teks tak terlihat yang ditambahkan.

Bisakah saya menjalankan OCR pada PDF yang sudah berisi beberapa halaman teks dan beberapa halaman hasil pindaian? Ya — Tesseract memproses halaman berbasis gambar dan menambahkan lapisan teks. Halaman yang sudah memiliki lapisan teks tidak akan terpengaruh.

Dokumen saya dalam bahasa Arab/Tiongkok/Jepang — apakah OCR akan berfungsi? Ya, tetapi pilih bahasa yang tepat di alat tersebut sebelum menjalankannya. Akurasi Tesseract untuk bahasa CJK dan bahasa yang ditulis dari kanan ke kiri cukup baik, tetapi lebih bervariasi tergantung kualitas pemindaian dibandingkan dokumen dengan aksara Latin.

OCR mengubah arsip dokumen hasil pemindaian yang terkunci menjadi informasi yang dapat diakses, dicari, dan diproses. Sebuah lemari penuh kontrak hasil pemindaian menjadi basis data yang dapat dicari. Tumpukan catatan medis menjadi dokumen yang benar-benar dapat Anda navigasi. Proses ini hanya membutuhkan beberapa detik hingga menit dan berjalan sepenuhnya di perangkat Anda.

About the author

LuraPDF Team
LuraPDF Team

Editorial & Technical Team · May 4, 2026 · 6 min read

The LuraPDF team consists of document processing experts, software engineers, and technical writers dedicated to making professional PDF editing free, private, and accessible.