100%プライベート即時処理永久無料

OCR PDFオンライン — 無料、ブラウザのみ対応、100以上の言語に対応

スキャンしたPDFを検索可能なテキストPDFに変換。データは一切アップロード不要。Tesseract WASMはブラウザ上で直接OCRを実行します。100以上の言語に対応、サーバー不要、登録不要。

スキャンしたPDFファイルをアップロードせずに検索可能にする

スキャンされた PDF は、文書の写真です。テキストのように見えますが、内部には実際のテキストデータはなく、ピクセルのマトリックスのみです。検索は機能しません。コピー&ペーストも失敗します。PDF リーダーはインデックスを作成できません。テキスト抽出ツールは空の結果を返します。解決策は光学文字認識 (OCR) です。これは、各ページのピクセルパターンを読み取り、文字を識別し、テキストを再構築するプロセスです。LuraPDF は、世界で最も広く使用されているオープンソースの OCR エンジンである Tesseract (Google がメンテナンス) を WebAssembly バイナリとして組み込み、ブラウザのタブ内で直接実行します。エンジンは一度ダウンロードされ、デバイス上で完全に文書を処理します。ファイルのアップロード、サーバー API 呼び出し、リモート処理は不要です。スキャンされた納税申告書、署名済みの契約書、患者の記録、または履歴文書は、お使いのマシンから出ることはありません。

プライバシーは、サーバーベースのOCRよりもブラウザベースのOCRを選択する決定的な理由です。スキャンされた文書は、非常に機密性が高いものです。人々は、納税申告書、医療記録、法的書類、銀行取引明細書、身分証明書などをスキャンします。これらの文書をクラウドOCR API(たとえプライバシーポリシーのあるAPIであっても)にアップロードすると、ファイルはインターネットを経由してサーバー上に保存され、処理パイプラインを通過し、制御できない方法で一時的に保管されます。LuraPDFのアーキテクチャは、このリスクを構造的に排除します。Tesseract WASMバイナリは、ブラウザ内のサンドボックス化されたWeb Workerで実行されます。移動するデータは、メモリ内のPDFに書き戻されるOCR処理されたテキストレイヤーのみで、すべてローカルです。出力は検索可能なPDFで、元のページ画像が正確に保持され、Tesseractが識別した文字位置に完全に一致するように、目に見えないテキストレイヤーが下に追加されます。

PDFファイルに対してオンラインでOCRを実行する方法

1

スキャンしたPDFファイルをアップロードしてください

スキャンしたPDFファイルまたは画像ベースのPDFファイルをアップロードエリアにドロップしてください。ファイルはブラウザのメモリに読み込まれるため、サーバーには何も送信されません。複数ページのスキャン文書、書籍、アーカイブ資料なども、LuraPDFのページ制限なしでアップロードできます。

2

言語を選択してください

言語セレクターから文書の主要言語を選択してください。英語とフランス語の両方のセクションを含む契約書や、ドイツ語の引用を含む学術論文など、多言語文書の場合は、関連するすべての言語を選択してください。Tesseractは、選択されたすべての文字体系の文字を認識するために、統合された言語モデルを使用します。

3

品質設定

スピードモード(高速、精度はやや劣るが、鮮明な現代フォントのスキャンに適している)と精度モード(低速、Tesseract LSTMエンジンをフル活用、低品質のスキャン、歴史的なフォント、ラテン文字以外のスクリプトに推奨)から選択してください。精度モードでは、ページごとに完全なニューラルネットワークモデルが実行されます。

4

テキストレイヤーをプレビューする

OCR処理が完了したら、認識されたテキストを元のページと並べてプレビューし、精度を確認してください。Tesseractは認識された単語ごとに境界ボックスを表示するため、ダウンロード前にスキャン品質の低い領域のエラーを特定できます。

5

検索可能なPDFをダウンロード

「ダウンロード」をクリックしてください。pdf-libは、Tesseractが特定した正確な文字位置に、各ページ上に目に見えないテキストレイヤーを書き込みます。出力は標準的な検索可能なPDFファイルです。画像はそのまま保持され、Ctrl+F、コピーを、選択、全文検索などの機能がすべて動作します。

100%プライベート — ローカルOCR

Tesseract WASMは、ブラウザのタブ内でサンドボックス化されたWeb Workerとして動作します。スキャンされたドキュメントはデバイスから外部に送信されることはありません。アップロード、サーバーAPI、一時的なクラウドストレージは一切使用しません。これは、スキャンされた金融、法律、医療文書にとって不可欠なプライバシー保護です。

Tesseract WASM — 100以上の言語に対応

LuraPDFは、GoogleのTesseract OCRエンジンのWebAssembly版であるTesseract.jsを使用しています。ラテン文字、キリル文字、アラビア文字、中国語(簡体字と繁体字)、日本語、韓国語、ヘブライ語、ヒンディー語など、100種類以上の言語モデルが利用可能です。複数の言語を選択して、複数の文字体系を含む文書を処理することもできます。

検索可能なPDF出力

出力では、元のスキャンされたページ画像が正確に保持され、適切な文字位置に目に見えないテキストレイヤーが追加されます。結果として、検索可能なPDFが作成されます。Ctrl+Fで単語を検索でき、テキストを選択・コピーでき、文書管理システムでインデックスを作成できます。

テキストのみのエクスポートオプション

LuraPDFは、検索可能なPDF出力に加えて、OCR処理された生のテキストをプレーンテキストファイル(.txt)としてエクスポートすることもできます。これは、認識されたテキストをワープロソフト、自然言語処理パイプライン、翻訳ツール、スプレッドシートへのインポートなど、後続のツールに渡す際に便利です。

元のレイアウトを維持

元のページ画像は一切変更されません。Tesseractのバウンディングボックスデータは、認識された各文字をページ上のピクセル位置にマッピングし、その正確な座標に目に見えないテキストレイヤーが配置されます。そのため、すべてのページの見た目は元のスキャン画像と全く同じです。

無料、登録不要、ウォーターマークなし

アカウント不要、1日のページ数制限なし、検索可能なPDF出力に透かしなし。最新のブラウザから、スキャンした文書に対して必要なだけOCRを実行できます。大容量文書は処理速度が遅くなりますが、制限はありません。

LuraPDF OCR PDFを使用しているのは誰ですか?

スキャンされたPDFファイルはあらゆる業界で蓄積されます。OCRはそれらのファイルを活用するための鍵となります。ここでは、ローカル環境におけるプライベートOCRが唯一許容されるワークフローを紹介します。

法務チーム向け — スキャンした契約書を検索可能にする

締結済みの契約書、証書、裁判所提出書類などは、多くの場合、スキャンされて画像PDFとして保管されます。機密性の高い法的文書をクラウドサービスにアップロードすることなく、ローカルでOCR処理を行うことで、文書管理システム内で各条項を検索可能にできます。

記録保管担当者 ― 歴史的文書をデジタル化する

図書館、公文書館、系図研究者は、歴史的な新聞、手紙、帳簿、手稿などをスキャンします。Tesseractは、歴史的なラテン文字フォントや非標準文字セットをサポートしています。OCRを実行することで、貴重な歴史的資料を第三者のサーバーに送信することなく、100年以上前の文書を検索可能にできます。

研究者向け — スキャンされた学術論文を検索

デジタル化される以前の学術論文、会議録、ジャーナルのスキャン画像は、デフォルトでは検索できません。OCR処理を行うことで、Ctrl+F検索、注釈付け、引用抽出、および文献管理ツールへのデータ入力が可能になります。

会計担当者 ― スキャンした領収書から数値を抽出する

スキャンされた経費領収書や請求書には、金額、日付、ベ​​ンダー名が画像ピクセルに記録されています。OCR処理によってこれらが検索・選択可能なテキストに変換されるため、会計ソフトへのコピー&ペーストや、後続のデータ抽出が可能になります。

医療チーム — スキャンした患者記録をデジタル化する

従来の患者記録、紹介状、診療記録用紙などはスキャンデータとして届きます。保護対象医療情報(PHI)は機密性が高いため、クラウドOCR APIにアップロードすることはできません。PHIを診療所のデバイスに保持したまま、ローカルでOCRを実行して記録を検索可能にします。

開発者向け — 自然言語処理パイプラインにテキストレイヤーを追加する

エンティティの抽出、コンテンツの分類、PDF文書の要約などを行うドキュメントインテリジェンスパイプラインは、テキストレイヤーを必要とします。Tesseract WASMを使用してローカルでスキャンしたPDFは、検索可能なPDFまたは生のテキストファイルとして生成され、外部APIにドキュメントデータを公開することなく、NLPモデルにデータを提供します。

ブラウザベースのOCRを使用する理由

ブラウザ上で動作するTesseract WASMは、研究レベルのOCR精度とローカル処理によるプライバシー保護を両立させています。その組み合わせによって、以下のようなメリットが得られます。

  • 個人情報(社会保障番号、口座番号、病歴など)を含むスキャンされた文書は、決してアップロードされることはなく、傍受やサーバー側でのデータ漏洩のリスクにさらされることもありません。
  • 100種類以上の言語モデルが、ラテン文字、キリル文字、アラビア文字、CJK文字、デーヴァナーガリー文字、ヘブライ文字など、世界の主要な文字体系を網羅しており、言語の追加販売は一切ありません。
  • 検索可能な出力とは、OCR処理後すぐにCtrl+F、テキスト選択、コピー&ペースト、全文インデックス作成が機能することを意味します。スキャンされた文書は、デジタルネイティブのPDFのように動作します。
  • 元のページ画像は完全に保持されます。OCRはテキストレイヤーを追加するだけで、視覚的なコンテンツを変更したり再レンダリングしたりすることはありません。スキャンされたページは、処理前と処理後で全く同じように見えます。
  • WebAssemblyの性能により、最新のデスクトップブラウザではTesseractがほぼネイティブの速度で動作します。標準的なスループットは、最高精度モードで1ページあたり5~15秒です。
  • 1日あたりの処理量やページ数の制限はなく、無料でご利用いただけます。500ページのスキャンした書籍でも、1枚のレシートでも、料金に差はありません。

LuraPDFがPDFファイルに対してOCRを実行する方法

スキャンした PDF をアップロードすると、pdf.js は各ページを 200 DPI (精度モードでは 300 DPI に設定可能) の目標解像度で HTML キャンバスにレンダリングします。キャンバスの画像データは SharedArrayBuffer を介して、選択した LSTM 言語モデルを実行する Tesseract.js Web Worker に転送されます。Tesseract はレイアウト分析を実行してページをテキスト領域に分割し、各領域に LSTM ニューラルネットワークを適用して文字シーケンスを認識します。出力は、認識された Unicode 文字シーケンスとバウンディングボックス座標 (各単語がページ上のピクセル位置) を含む単語のリストです。

Tesseractがページの処理を完了すると、pdf-libは認識されたテキストとバウンディングボックスを使用して、対応するPDFページに目に見えないテキストレイヤーを描画します。各単語は、検出された座標に`page.drawText()`を使用して配置され、フォントサイズはバウンディングボックスの高さから計算され、テキストカラーは不透明度ゼロの`rgb(0, 0, 0)`で設定されます。これは視覚的には見えませんが、PDFのテキストコンテンツストリームには存在します。最新のPDFビューアはこのテキストストリームを検索、選択、コピーを操作に使用します。結果として、元のスキャンとまったく同じように見えるPDFが作成されますが、Ctrl+Fに対応し、テキスト選択をサポートし、文書管理システムや検索エンジンによるインデックス作成も可能です。

OCR PDF:LuraPDFと代替ソフトの比較

特徴LuraPDFサーバーベースのOCR(ilovepdf、Smallpdf)Adobe Acrobat
プライバシーブラウザのみ対応 — ファイルはアップロードされませんスキャンされた文書がリモートサーバーにアップロードされました地域限定だが、有料会員登録が必要
言語サポートTesseract WASM経由で100以上の言語に対応様々である ― 通常は言語数が少ないアクロバット:多言語対応だが、一部制限あり
料金永久無料、ページ制限なしフリーミアム - ページ制限または有料化$$$ Acrobat サブスクリプション
登録が必要ですなし — ページを開いてOCRを実行する複数ページのドキュメントにはアカウントが必要ですAdobe IDとサブスクリプションが必要です

OCRの精度を最大限に高めるためのヒント

スキャン品質はOCR精度に最も大きな影響を与える要素です。これらのヒントは、Tesseract WASMで最高の結果を得るのに役立ちます。

  1. Tip 1:

    正しい言語を選択してください。誤った言語モデルを適用すると、Tesseractの精度は著しく低下します。不明な場合は、複数の可能性のある言語を選択してください。Tesseractがそれらの言語の中から最適なものを選びます。

  2. Tip 2:

    スキャン解像度が高いほどOCRの精度が向上します。300 DPIのスキャンは、150 DPI以下のスキャンよりも大幅に高い精度を実現し、特に小さなフォントのテキストやラテン文字以外の文字においてその効果が顕著です。

  3. Tip 3:

    OCRを実行する前に、ページをトリミングして回転させましょう。LuraPDFのPDFトリミングツールとPDF回転ツールを使用して、ページを正しい向きに揃え、余白を削除してからOCRを実行してください。ページが傾いていたり、上下逆になっていると、認識精度が低下します。

  4. Tip 4:

    モバイル端末で複数ページの大きなドキュメントを開く場合は、デスクトップブラウザに切り替えてください。Tesseract WASMはプロセッサ負荷が高く、モバイル端末では処理速度が低下します。タブレットまたはデスクトップ版のChromeやFirefoxが最高のパフォーマンスを発揮します。

  5. Tip 5:

    OCR処理後、PDF to Text機能を使用して認識された全文をプレーンテキストファイルとして抽出し、ワープロソフト、翻訳ツール、またはデータパイプラインに貼り付けてください。

  6. Tip 6:

    複数の言語で書かれた文書(英語とアラビア語のセクションがある法律契約書、または英語のテキストと中国語の図表がある論文など)の場合、セクションごとに個別に処理するのではなく、OCRを実行する前にすべての関連言語を選択してください。

よくある質問

PDFファイルをアップロードせずに、無料でOCR処理を実行することはできますか?
はい。LuraPDFは、GoogleのTesseract OCRエンジンのWebAssembly版であるTesseract WASMを使用しており、ブラウザ内で完全に動作します。ファイルのアップロードも、サーバーも、アカウントも不要です。スキャンしたPDFファイルをドロップインし、言語を選択するだけで、検索可能なPDFを無料でダウンロードできます。
Tesseract WASM OCRの精度はどのくらいですか?
TesseractのLSTMエンジンは研究グレードであり、最新のフォントを使用した高解像度(300 DPI)のスキャン画像では、95~99%の文字認識精度を実現します。低解像度のスキャン画像、手書き文字、特殊なフォント、高度に圧縮された画像では、精度が低下します。精度に最も影響を与える設定は、適切な言語モデルを選択することです。
OCRはどの言語に対応していますか?
英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、アラビア語、中国語(簡体字)、中国語(繁体字)、日本語、韓国語、ロシア語、ヒンディー語、ヘブライ語、タイ語など、100以上の言語が利用可能です。複数の言語を選択して、複数の言語を含む文書を作成することもできます。Tesseractは選択されたすべてのモデルを同時に使用します。
機密性の高いスキャン文書をオンラインでOCR処理するのは安全ですか?
はい、LuraPDFなら可能です。なぜなら、ファイルはデバイスから外部に送信されることがないからです。Tesseract WASMはブラウザ内のサンドボックス化されたWeb Workerで動作し、サーバーにデータが送信されることはありません。そのため、LuraPDFは、スキャンした納税申告書、医療記録、法的文書、財務書類など、外部サービスにアップロードできない文書のOCR処理に最適な選択肢となります。
ブラウザベースのOCRは、サーバーベースのOCRよりも遅いのでしょうか?
はい、ブラウザのWASM OCRは、最新のクラウドOCR APIがマルチGPUハードウェア上で動作するため、サーバーサイドOCRよりも処理速度が遅くなります。LuraPDFのTesseract WASMは、最新のデスクトップCPUで精度モードの場合、通常1ページあたり5~15秒かかります。これは、プライバシー保護の保証という点では許容範囲内のトレードオフです。メモリ容量の少ないデバイスで非常に大きなドキュメントを処理する場合は、モバイルよりもデスクトップブラウザの使用を強くお勧めします。
OCR処理によって、スキャンしたPDFファイルの見た目は変わりますか?
いいえ。元のページ画像は完全に保存されます。OCRは認識された文字の位置に目に見えないテキストレイヤーを追加するだけで、各ページの視覚的な内容は入力スキャンとバイト単位で同一です。変更されるのは、テキストが検索、選択、コピー可能になる点です。
OCR処理で出力されるPDFファイルには透かしが入りますか?
いいえ。LuraPDFは、出力ファイルに透かし、スタンプ、宣伝用オーバーレイなどを一切追加しません。ダウンロードされる検索可能なPDFは、目に見えないテキストレイヤーが追加されただけの、クリーンなドキュメントです。
スマートフォンでPDFファイルをOCR処理できますか?
はい、短い文書であれば可能です。Tesseract WASMは計算負荷が高いソフトウェアです。最新のスマートフォンで10ページをスキャンする場合、精度重視モードでは通常1~3分かかります。50ページ以上の長い文書の場合は、処理時間を短縮するためにデスクトップブラウザのご利用を強くお勧めします。
OCRは元のページレイアウトを保持しますか?
はい。ページ画像は再レンダリングもサイズ変更もされません。Tesseractのバウンディングボックス出力を使用して、テキストレイヤーを元の画像上の文字単位の正確な座標に配置します。列、表、見出し、脚注、複数列レイアウトが認識され、テキストレイヤーは元の視覚構造に従います。
複数の言語で書かれたテキストを含むPDFファイルをOCR処理することはできますか?
はい。OCRを実行する前に、文書に含まれるすべての言語を選択してください。例えば、英語とアラビア語のセクションがある契約書の場合、英語とアラビア語の両方を選択します。Tesseractは選択されたすべての言語モデルを同時に適用し、投票方式を用いて各領域に最適な文字の一致を決定します。これは、セクションを個別に処理するよりも精度が高くなります。

OCR PDFをローカルで処理 — 100以上の言語に対応、検索可能な出力、無料

スキャンしたPDFを上記のアップロードエリアにドロップし、ドキュメントの言語を選択するだけで、Tesseract WASMがブラウザ上で全ページを検索可能にします。アップロードもサーバーもアカウントも透かしもページ制限もありません。スキャンした税務書類、法的文書、医療記録、アーカイブ資料は、選択した瞬間から検索可能なPDFがダウンロードフォルダに保存されるまで、デバイス上に保持されます。OCR処理後、PDF to Textで全文を抽出したり、Crop PDFとRotate PDFツールでスキャン画像をトリミングおよび回転させたり、Annotate PDFツールで新たに検索可能になったページに注釈を付けたりできます。