ウェブパブリッシャー
既存のPDFライブラリ(製品ガイド、年次報告書、事例研究など)を、検索エンジンがインデックス登録でき、読者がリンクできるWebページに移行します。
PDFは印刷フォーマット、HTMLはウェブフォーマットです。ホワイトペーパー、製品仕様書、調査レポートなど、コンテンツがPDF形式の場合、検索エンジンには認識されず、PDFリーダーがないとスマートフォンで表示できず、セクションレベルでのリンクも困難です。HTMLに変換することで、コンテンツはGoogleにインデックス登録され、あらゆるデバイスで閲覧可能になり、あらゆる見出しにリンクを張ることができ、テキストエディタがあれば誰でも編集できるようになります。たった1回の変換で、PDFコンテンツをウェブ全体で活用できるようになります。
LuraPDFのPDFからHTMLへのコンバーターを、PDF.jsを使用してブラウザ上で完全に動作します。位置データを含むテキストを抽出し、見出し検出ヒューリスティックを適用して適切なHTML見出しレベルを割り当て、ユーザーの好みに応じて画像をインライン化または抽出します。出力は、サーバーサイドツールが通常生成するような、CSSが多用された冗長なHTMLではなく、クリーンでセマンティックなHTML5です。WordPress、Jekyll、Reactコンポーネント、またはどのブラウザでも正しくレンダリングされるプレーンな.htmlファイルに貼り付けることができるコードが得られます。
ウェブパブリッシャー、開発者、コンテンツチーム、教育関係者は皆、固定されたファイル形式ではなく、ウェブですぐに使えるコンテンツが必要な場合に、PDFをHTMLに変換。
既存のPDFライブラリ(製品ガイド、年次報告書、事例研究など)を、検索エンジンがインデックス登録でき、読者がリンクできるWebページに移行します。
ホワイトペーパーやオピニオンリーダーのPDFを、一文字も書き直すことなく、ランディングページ、ブログ記事、メールニュースレターに再利用できます。
PDF仕様書を開発者ポータルや社内Wiki用のHTMLページに変換し、既存のCSSテーマを適用して統一感のある外観を実現します。
PDF形式の配布資料や講義ノートをウェブページとして公開することで、学生はあらゆるデバイスで閲覧したり、テキスト内を検索したり、ハイパーリンク先の情報源にアクセスしたりできるようになります。
公開されている裁判所文書や規制当局への提出書類を、機密文書を第三者のサーバーに送信することなく、社内検索ポータル用のHTML形式に変換します。
PDFアーカイブをHTMLに変換することで、長期的なウェブアクセス性を確保し、将来のPDFビューアの変更後もコンテンツが維持され、どのブラウザでも読みやすい状態を保つことができます。
ローカルで処理することで、サーバーのキューに依存することなく、プライバシー、意味的な品質、および速度を実現できます。
LuraPDFはPDF.jsを使用して各ページのコンテンツストリームを解析し、テキスト項目をUnicode文字列、フォントサイズ、x/y座標とともに抽出します。見出し検出ヒューリスティックは、ドキュメント全体のフォントサイズを比較し、最も大きいテキストをh1、次の階層をh2、といった具合に段落テキストまで割り当てます。リストは、共通の箇条書き文字とインデントパターンによって識別されます。PDFに埋め込まれた画像は、バイナリストリームからデコードされ、HTMLに直接base64エンコードされるか、HTML出力と並行して個別の画像ファイルとして書き込まれます。
作成されたコンテンツは、ビューポートメタタグ、最小限のレスポンシブスタイルシート、適切な文字セット宣言を含む標準的なHTML5ドキュメントテンプレートでラップされます。ページごとのエクスポートを選択した場合、各ページは番号付きのHTMLファイルを生成します。ダウンロードをクリックすると、ブラウザは出力をBlobにシリアル化し、ファイルのダウンロード(複数ファイルのエクスポートの場合はZIPアーカイブ)を開始します。このプロセスにおいて、データがブラウザから外部に送信されることはありません。
| 特徴 | LuraPDF | pdf2html | Adobe Acrobat |
|---|---|---|---|
| ブラウザのみ / アップロード不可 | はい | いいえ | いいえ |
| セマンティックなHTML5出力 | はい | 部分的 | はい |
| 画像はインラインで表示/抽出されたものです。 | はい | 部分的 | はい |
| 無料、ファイル数制限なし | はい | 無料枠には限りがあります | 有料 |
変換前後のいくつかの選択肢によって、よりクリーンなHTMLが生成され、保守や公開が容易になります。
エクスポート後、HTMLをPrettierで処理してインデントを正規化し、公開前に閉じられていないタグを検出します。
見出しの階層構造を確認してください。ヒューリスティックは有効ですが、大きな引用文を誤って見出しとして分類してしまう可能性があります。必要に応じて、hタグを手動で調整してください。
サイト統合には外部CSSを使用し、直接共有するスタンドアロンの1ページ文書にはインラインスタイルのみを使用してください。
長期的にホストするファイルについては、base64形式ではなく抽出した画像を選択してください。抽出した画像は、HTMLファイルやCDNでキャッシュ可能な画像よりもサイズが小さくなります。
公開前にモバイルブラウザで出力をテストしてください。ウィンドウのサイズを変更したり、開発者ツールを使用してレスポンシブレイアウトを確認したりできます。
画像や装飾のないテキストのみが必要な場合は、PDFからテキストへの変換機能を使用してください。処理速度が速く、出力ファイルも軽量です。
PDFコンテンツを検索可能、リンク可能、モバイルフレンドリーに、わずか数秒で変換できます。セマンティックHTML5出力、画像処理オプション、ページごとのエクスポートなど、すべてブラウザ上で動作し、サーバーに1バイトも送信しません。登録不要、ウォーターマークなし。PDFファイルをドラッグ&ドロップするだけで、クリーンなHTMLをダウンロードできます。