Tutorial

スキャンしたPDFをOCR処理して検索可能にする方法

LuraPDFのブラウザベースのOCRツールを使用して、OCR（光学文字認識）の仕組み、精度に影響を与える要因、そしてスキャンしたPDFを検索可能でコピー＆ペースト可能なドキュメントに変換する方法を学びましょう。

Editorial & Technical Team · May 4, 2026 · 13 min read

スキャンされたPDFは、文書をデジタル撮影したものです。ページは画像として扱われます。テキストを選択したり、単語を検索したり、文章をコピーしたり、テキスト処理ツールにコンテンツを読み込ませたりすることはできません。情報検索の目的においては、スキャンされたPDFは基本的に不透明なファイルです。

OCR（光学文字認識）は、これらの画像を分析し、視覚コンテンツの上にテキストレイヤーを構築することでこの問題を解決します。その結果、元のスキャン画像と見た目は全く同じでありながら、目に見えないテキストレイヤーを含むPDFが作成され、すべての要素を選択、検索、コピーできるようになります。

OCRの仕組み

LuraPDFは、Tesseract.jsを使用しています。Tesseract.jsは、Googleがメンテナンスを行い、元々はHP Labsが開発した、最も精度の高いオープンソースOCRエンジンの1つであるTesseractのブラウザコンパイル版です。Tesseractは、数十の言語にわたる数百万ページの文書でトレーニングされたニューラルネットワークモデル（LSTMベース）を使用しています。

OCRパイプライン：

ページレンダリング: 各PDFページは高解像度（最高の精度を実現するため300 DPI以上）のキャンバス画像としてレンダリングされます。
前処理: 画像強調 — 二値化、ノイズ除去、傾き補正（回転したスキャン画像の水平化）
レイアウト分析: テキスト領域、列、表、および非テキスト要素の検出
文字認識: ニューラルネットワークは、分割されたテキスト領域から各文字を分類します。
後処理: 言語モデルによるスコアリングで類似文字の曖昧性を解消（例：「l」と「1」、「O」と「0」）
PDF書き込み: 認識されたテキストは、対応する視覚文字の上に正確に配置される目に見えないテキストレイヤーとして埋め込まれます。

目に見えないテキスト層があることで、検索結果が検索可能になります。ページの見た目は元のスキャン画像のままで、スキャンした内容がそのまま表示されますが、その下のテキストは機械で読み取り可能な形式になっています。

OCRの精度に影響を与える要因

精度は入力品質によって大きく変動する。

スキャン解像度

300 DPIは、信頼性の高い精度を確保するための最低解像度です。 200 DPI未満では、文字認識精度が著しく低下します。OCR用に文書をスキャンする場合は、必ず300 DPI以上でスキャンしてください。

150 DPI以下の解像度でスキャンされた文書は、OCR処理を行う前に高解像度で再スキャンする必要があります。低解像度のスキャン画像にOCR処理を実行すると、エンジンの性能に関わらず、精度が低下します。

フォントと印刷品質

印刷されたテキスト（レーザープリンター出力、組版書籍）：きれいな原稿の場合、98～99％の精度
文字がはっきりと読み取れる高品質の手書き文字：85～95％
かすれたり薄れたりした文字: コントラストに応じて80～95%
カーボンコピー用紙: 60～85%
古い新聞／タイプライター: 90～95%が鮮明なスキャン画像
筆記体: 40～70% — ニューラルネットワークOCRは筆記体の認識に苦労する

ページ方向

大きく傾いたり回転したりしたページは、精度を低下させます。Tesseractを含むほとんどのOCRエンジンは、軽微な回転（最大約10度）を自動的に検出して修正します。大きく回転したページは、Rotate PDFを使用して手動で修正する必要があります。

＃＃＃言語

Tesseractは100以上の言語に対応しています。LuraPDFのOCRツールは英語を自動的に検出します。ラテン文字以外の文字や英語以外の文書の場合、言語を選択することで精度が大幅に向上します。

LuraPDFでPDFをOCRする方法

OCRツールを開く: LuraPDF OCR PDFに移動します。
スキャンしたPDFをアップロード: ファイルをドラッグアンドドロップしてください
言語を選択（英語以外の場合）：文書の主要言語を選択してください。
「OCRを実行」をクリックしてください: 処理はブラウザ上でページごとに実行されます。所要時間は文書の長さによって異なります。最新のコンピュータであれば、20ページのスキャンには通常30～90秒かかります。
検索可能なPDFをダウンロード: 出力は、元のスキャン画像と埋め込みテキストレイヤーを含むPDFファイルです。

結果のテスト

OCR処理後、精度を検証する：

ページ上のテキストを選択します — テキストは印刷された文字と完全に一致するように選択できる必要があります
一般的な単語を検索（Ctrl+F / Cmd+F）してください。見つかるはずです。段落をコピーしてテキストエディタに貼り付けると、出力は読みやすいものになります。

精度が低い場合は、他のツールを試す前に、まず入力スキャンの品質を確認してください。

OCRを他の操作の前に実行すべきタイミング

OCR機能により、純粋な画像PDFでは動作しないLuraPDFの追加操作が可能になります。

OCR後にPDFを圧縮: テキストが抽出された後、画像領域をより積極的に圧縮できる場合があります。
OCR後のPDFからWordへの変換: OCR処理されたPDFをWordに変換すると編集可能なテキストが生成されます。生のスキャン画像を変換すると、画像が埋め込まれたWordファイルが生成されます。
PDF編集 OCR後の編集: OCR処理された文書では、テキストベースの編集が正しく機能します。
検索と抽出: 再入力せずに特定の情報を検索してコピーします

プライバシー：OCRはブラウザ上で動作します

Tesseract.jsはWebAssemblyを使用してOCR処理全体をローカルで実行します。スキャンされた文書（多くの場合、医療記録、財務諸表、法的文書、または個人情報が含まれています）は、デバイスから外部に送信されることは一切ありません。リモートサーバーがファイルを処理することはありません。

これは、処理するすべてのデータのコピーを必ず受け取るクラウドOCRサービスに比べて、大きな利点です。

ブラウザベースのOCRの限界

処理時間

Tesseract.jsは、デスクトップ版TesseractやクラウドOCR APIよりも処理速度が遅いです。ハードウェアの性能にもよりますが、1ページあたり約3～8秒かかります。50ページの文書の場合は、数分かかる可能性があります。

表

Tesseractは表の内容を認識しますが、PDFのテキスト層内の表構造は再構築しません。テキストは読み上げ順にはなりますが、セル構造は保持されません。構造化された表を抽出するには、OCR処理済みのPDFをWord形式に変換し、表を手動で再フォーマットしてください。

数学的表記法

LaTeX形式の数式や数学記号は精度が低くなります。Tesseractモデルは自然言語テキストに最適化されています。

手書き

前述のとおり、筆記体の正確性には限界があります。活字体の方が精度は高いです。重要な手書き文書については、各ページを手作業で確認してください。

よくある質問

OCRで読み取ったテキストが文字とずれています。これはバグでしょうか？ これは、スキャン画像が大きく歪んでいる場合に発生する可能性があります。テキストの位置は検出された文字の位置から計算されますが、ページの形状が標準的でない場合、位置ずれが生じる可能性があります。OCRを実行する前に、PDFを回転させてして歪みを修正してみてください。

特定のページだけをOCR処理することはできますか？ LuraPDFはすべてのページを処理します。特定のページのみOCRが必要な場合は、PDFページの抽出を使用してまずそれらのページを抽出し、OCRを実行してから、必要に応じて結果を結合してください。

OCR処理によってスキャンした文書の見た目は変わりますか？ いいえ。元のスキャン画像はそのまま保存されます。目に見えないテキストレイヤーが追加されるだけです。

テキストページとスキャンページが混在しているPDFファイルに対してOCR処理を実行できますか？ はい。Tesseractは画像ベースのページを処理し、テキストレイヤーを追加します。既にテキストレイヤーを持つページは影響を受けません。

私の文書はアラビア語／中国語／日本語ですが、OCRは機能しますか？ はい、ただし実行前にツールで正しい言語を選択してください。TesseractはCJK言語や右から左に書く言語の精度は良好ですが、ラテン文字の文書よりもスキャン品質の影響を受けやすいです。

OCRは、スキャンされた文書が保管されている閉鎖されたアーカイブを、アクセス可能で検索可能で処理可能な情報に変換します。スキャンされた契約書が詰まったキャビネットは、検索可能なデータベースに生まれ変わります。医療記録の山は、実際に操作できる文書へと変わります。この処理は数秒から数分で完了し、すべてデバイス上で実行されます。