100%プライベート即時処理永久無料

PDFからテキストへの変換

あらゆるPDFファイルから、クリーンなプレーンテキストを抽出できます。無料、ブラウザ専用、完全プライベート。レイアウト保持モードまたはストリーミングモードを選択可能。ワンクリックでUTF-8形式の.txtファイルとしてダウンロードできます。

PDFからテキストを抽出する理由とは?

PDFは至る所にありますが、それはコンテナであってテキストではありません。法的文書をgrepで検索したり、ドキュメントの内容を機械学習パイプラインに入力したり、研究論文をElasticsearchにインデックス化したり、改行を手動で修正せずに引用文を貼り付けたりする必要がある場合は、プレーンテキストが必要です。PDFビューアからコピー&ペーストすると、列の配置が崩れたり、不要なハイフンが挿入されたり、複数列のレイアウトが意味不明な状態になってしまいます。専用のPDF-テキストコンバーターを使えば、これらの問題をすべて一度に解決できます。

LuraPDFのテキスト抽出ツールは、Firefoxの組み込みPDFビューアと同じライブラリであるPDF.jsを使用して、ブラウザ上で完全に動作します。アップロードも処理キューも、サーバー層によるサイズ制限もありません。抽出モードは、人間が読みやすいレイアウト形式と、パイプライン処理に適したストリーム形式の2種類が用意されており、さらに3種類のエンコーディングとオプションのページ区切りマーカーを選択できます。結果は.txtファイルとして即座にダウンロードされ、任意のエディタで開いたり、pandasにインポートしたり、任意のコマンドラインツールにパイプで渡したりできます。

PDFをオンラインでテキストに変換方法

1

PDFファイルをアップロードしてください

PDFファイルをアップロードエリアにドラッグ&ドロップするか、クリックして選択してください。ファイルは完全にブラウザ内に保存され、サーバーには送信されません。

2

ピックアップ抽出モード

列と表の配置を維持するにはレイアウトモードを、NLPパイプラインと機械処理に最適化された読み上げ順序のテキストを出力するにはストリームモードを選択してください。

3

ページ範囲を選択してください

すべてのページを一度に抽出することも、範囲を指定することもできます。これは、章やセクションだけが必要な長い文書に便利です。

4

エンコーディングを設定

UTF-8がデフォルトであり、ほぼすべての文字体系と言語に対応しています。UTF-16またはASCIIへの切り替えは、下流のツールが要求する場合のみにしてください。

5

.txtファイルをダウンロードしてください

「テキストを抽出」をクリックすると、.txtファイルがすぐにダウンロードされます。透かしもアカウントも待ち時間もありません。

100%プライベート

テキスト抽出はPDF.jsを使用してブラウザ上で完全に実行されます。ドキュメントはサーバーに一切アクセスしないため、機密性の高いPDFファイル、法的証拠書類、機密性の高い研究データにも安全です。

レイアウトとストリームモード

レイアウトモードでは、グリフの位置に関するヒューリスティックを使用して、列、表、インデントを再構築します。ストリームモードでは、コンテンツストリームの順序でテキストを出力します。これは、Pythonの自然言語処理パイプラインや検索インデクサーへの入力に最適です。

UTF-8、UTF-16、ASCII

デフォルトのUTF-8は、アラビア語、CJK、キリル文字、ギリシャ文字、およびすべてのラテン文字を文字化けすることなく処理します。マルチバイト文字に対応していない旧式のツールを使用する場合は、ASCIIに切り替えてください。

複数ページバッチ

一度にすべてのページを抽出します。出力は単一の.txtファイルで、各ページ間にオプションでページ区切りマーカーが含まれるため、後続のスクリプトでセクション境界で分割できます。

ページ区切りマーカー

ページ間で改ページ文字を切り替えることで、grep、awk、またはpandasが手動処理なしでファイルをページ単位で正確に分割できるようになります。

無料、登録不要

アカウントもAPIキーもサブスクリプションも不要。ブラウザのメモリ容量が許す限り、PDFファイルをいくつでも変換できます。ファイル単位やページ単位の制限はなく、完全無料です。

PDFをテキストに変換するのは誰ですか?

ソフトウェアエンジニアが検索エンジンにドキュメントを取り込む場合から、学生が論文のために引用文を抽出する場合まで、プレーンテキスト抽出は、あらゆる下流ワークフローにおいてPDFコンテンツへのアクセスを可能にします。

開発者および検索エンジニア

サーバー側での抽出処理なしに、PDFコンテンツをElasticsearch、Solr、またはベクターデータベースに取り込むことができます。ストリームモードでは、トークン化とインデックス作成に適した、クリーンで空白文字が正規化されたテキストが生成されます。

研究者およびデータサイエンティスト

学術論文、技術報告書、政府文書から自然言語処理(NLP)コーパスを構築します。各論文をバッチ処理で.txtファイルにエクスポートし、pandasまたはNLTKを使用してフォルダに読み込み、前処理を行います。

調査報道ジャーナリスト

情報公開法に基づく情報開示や流出文書は、多くの場合PDFファイルとして届きます。それらを.txtファイルに変換し、grepやDatashareを使って数百ものファイルを数分で検索すれば、機密情報をアップロードすることなく作業を完了できます。

法律専門家

裁判所の証拠書類、契約書、および証拠開示文書からテキストを抽出し、キーワード検索や特権の確認に利用できます。機密性の高い資料を第三者のサーバーにアップロードする必要はありません。

学生と教職員

研究論文や教科書から正確な引用を、改行の乱れに悩まされることなくコピーできます。レイアウトモードでは、脚注や引用文献が読みやすいように十分な構造が維持されます。

データアナリスト

PDFレポートから表形式のデータを抽出して.txtファイルに書き出し、pandas、AWK、または任意のスクリプト言語で解析します。PDFからExcelへの変換機能と組み合わせることで、構造化された表を抽出できます。

ブラウザベースのPDFからテキストへの変換の利点

ローカルで処理することで、処理速度が向上し、プライバシーリスクがゼロになり、サーバーによる処理制限、ログ記録、ファイル消失などのリスクから解放されます。

  • アップロードは不要です。機密性の高いPDFファイルは、抽出プロセス全体を通してデバイス上に保持されます。
  • レイアウトモードでは、列と表が再構築されるため、手動で修正しなくてもテキストが自然に読めます。
  • ストリームモードでは、トークナイザーや自然言語処理ライブラリが前処理なしで利用できる、パイプライン処理に対応したテキストが生成されます。
  • UTF-8出力は、あらゆる文字体系と言語に対応しており、アラビア語、CJK、キリル文字も破損することなく抽出できます。
  • ページ区切りマーカーを使用すると、後続のスクリプトは1行のコードで出力をページごとに分割できます。
  • ファイル数制限なしで無料 – 500ページのレポートでも、1000本の個別の論文でも、料金を支払うことなく変換。

PDFからテキストへの抽出方法

LuraPDFはPDF.jsのgetTextContent() APIを使用します。このAPIは各ページのコンテンツストリームを解析し、Unicode文字列、フォントメトリクス、ページ上のx/y座標を含むテキストアイテムの配列を返します。レイアウトモードでは、抽出器はアイテムを垂直方向の位置でグループ化して行にまとめ、各行を左から右に並べ替え、グリフ間の間隔に比例したスペースを挿入します。これにより、列やインデントされたリストのおおよその視覚的なレイアウトが再構築されます。ストリームモードでは、アイテムは空間的な並べ替えなしでコンテンツストリームの順序で書き出され、トークナイザーが好むコンパクトな段落が生成されます。

テキストが組み立てられると、ブラウザのTextEncoder APIを使用して選択された文字セットにエンコードされ、Blobに書き込まれます。ダウンロードは、一時オブジェクトのURLによってトリガーされます。データはブラウザタブから外部に送信されることはありません。ページ区切りマーカーが有効になっている場合、各ページのテキストブロック間に改ページ文字が挿入されるため、プログラムによるページ分割が容易になります。このプロセス全体はページごとに同期的に実行され、ほとんどのドキュメントで1秒以内に完了します。

LuraPDFとその他のPDFテキスト変換ツールとの比較

特徴LuraPDFSmallpdfAdobe Acrobat
ブラウザのみ / アップロード不可はいいいえいいえ
レイアウトとストリームモードはい部分的はい
UTF-8 / UTF-16 / ASCIIはいUTF-8のみはい
無料、ファイル数制限なしはい1日2回無料有料

PDFからテキストへの変換結果を改善するためのヒント

抽出前後のいくつかの判断によって、きれいなテキストになるか、断片的なテキストが乱雑に並ぶかが決まる。

  1. Tip 1:

    PDFが選択可能なテキストを含まないスキャン画像の場合は、まずOCR PDFを実行してください。そうしないと、抽出時に空のファイルが返されます。

  2. Tip 2:

    機械学習パイプラインにはストリームモードを、人間が読み取ったり編集したりする出力にはレイアウトモードを使用してください。

  3. Tip 3:

    ターゲットツールが明示的にASCIIまたはUTF-16を要求する場合を除き、UTF-8を使用してください。UTF-8は普遍的に安全な選択肢です。

  4. Tip 4:

    スクリプト内で出力をページごとに分割する場合は、ページ区切りマーカーを有効にしてください。手動での解析手順が不要になります。

  5. Tip 5:

    エクスポート後に、シンプルな正規表現を使用して繰り返し出現するヘッダーとフッターを削除します。ヘッダーテキストに一致させ、出現する箇所をすべて削除します。

  6. Tip 6:

    非常に大きなPDFファイルの場合は、ブラウザの動作を維持するためにページ範囲ごとに処理し、必要に応じて章を個別に抽出してください。

PDFからテキストへの変換 — よくある質問

PDFファイルから無料でテキストを抽出するにはどうすればいいですか?
LuraPDFにPDFファイルをアップロードし、抽出モードとエンコード方式を選択してから、「ダウンロード」をクリックしてください。すべての処理はブラウザ上で実行され、登録もサーバーへのアップロードも不要、費用もかかりません。
スキャンしたPDFファイルは、PDFからテキストへの変換に対応していますか?
スキャンされたPDFにはラスター画像が含まれており、選択可能なテキストは含まれていません。まず、弊社のOCR PDFツールでドキュメントを処理して検索可能なテキストレイヤーを追加してから、こちらに戻ってプレーンテキストとして抽出してください。
レイアウトモードとストリームモードの違いは何ですか?
レイアウトモードでは、各グリフのx/y座標を使用して行、列、および大まかな表の配置を再構築します。これは人間が読むのに最適です。ストリームモードでは、PDFライターが使用した生のコンテンツストリームの順序でテキストを出力します。これは、正確な間隔が重要ではない自然言語処理、検索インデックス作成、およびデータパイプラインに最適です。
PDFからテキストへの変換はUTF-8をサポートしていますか?
はい。UTF-8はデフォルトのエンコーディングで、ラテン文字、アラビア文字、中国語、日本語、韓国語、キリル文字、ギリシャ文字など、ほぼすべての文字体系を文字化けすることなく処理します。UTF-16とASCIIも利用可能です。
PDFからのテキスト抽出は、ロスレスで行われますか?
ネイティブのデジタルPDFの場合、はい、PDFに含まれるすべての文字が忠実に抽出されます。スキャンされたPDFの場合、精度はこのツールではなく、OCRの品質に依存します。
複数のページから一度にテキストを抽出することはできますか?
はい。デフォルトでは、すべてのページが1つの.txtファイルに抽出されます。また、ページ範囲(例えば5ページから20ページまで)を指定することで、出力を特定のセクションに限定することもできます。
PDFをテキストに変換する機能はモバイル端末でも動作しますか?
はい、このツールはiOSとAndroidのモバイルブラウザで動作します。非常に大きなPDFファイルは、RAM容量の少ないデバイスでは処理速度が遅くなる場合があります。必要に応じて、ページ範囲指定オプションを使用してセクションごとに処理してください。
機密性の高いPDFファイルをオンラインでテキストに変換のは安全ですか?
はい。LuraPDFは、ブラウザタブ内でPDF.jsを使用してすべての処理をローカルで行います。ファイルデータがサーバーに送信されることは決してないため、法的文書、医療記録、財務報告書、企業秘密などにも安全です。
PDFファイルにパスワードが設定されている場合はどうすればよいですか?
まず、ブラウザのパスワードを解除する「PDFロック解除ツール」を使用してPDFのロックを解除してください。その後、こちらに戻ってテキストを抽出してください。
抽出されたテキストには、透かし、ヘッダー、フッターが含まれますか?
抽出ツールは、PDFのコンテンツストリームからすべてのテキストコンテンツを抽出します。これには、透かし、ヘッダー、フッターがテキストオブジェクトである場合も含まれます。任意のテキストエディタで簡単な正規表現を使用すれば、.txt出力から繰り返し出現するヘッダーとフッターのパターンを削除できます。

ブラウザでPDFテキストを抽出 — 無料、プライベート、即時

読みやすいレイアウト整列テキ​​ストが必要な場合でも、パイプライン用のストリームモード出力が必要な場合でも、LuraPDFはサーバーにアクセスすることなく数秒で抽出します。デフォルトはUTF-8、ページ区切りはオンデマンド、サインアップ不要、ウォーターマークなし。PDFファイルをドロップするだけで、クリーンな.txtファイルをダウンロードできます。