PDFからテキストデータを取り出したい場面は多くあります。インデックス作成、データ分析、データベースへの取り込み、コンテンツの移行など。Adobe Readerでは数段落をコピー&ペーストできますが、複数ページの文書、段組みレイアウト、表には対応できません。オンラインコンバーターは一度に1ファイルしか処理できず、データを他社のサーバーにアップロードすることになります。Total PDF Converterは数百のPDFから一括でテキストを抽出し、完全にWindows上で動作します。エンコーディングはANSI、UTF-8、Unicodeから選択できます。
PDFは固定レイアウト形式です。フォント、画像、ベクターグラフィックスを埋め込むことで、どの環境でも同じ見た目を保ちます。しかしその安定性にはコストが伴います。テキストだけを抽出するには、PDF内部の構造(グリフ位置、エンコーディングテーブル、埋め込みフォント、ページストリーム)を理解するコンバーターが必要です。
プレーンテキストファイルは文字と改行だけで構成されています。あらゆるOSのあらゆるエディタで開けます。TXTは検索インデックス(Elasticsearch、Solr)、データベース、データ処理スクリプト、NLPパイプライン、コンテンツ管理システムの入力形式です。PDFからテキストを取り出せば、クエリ、変換、再利用が可能なデータが手に入ります。
Total PDF Converterを起動します。左側のフォルダツリーにドライブとディレクトリが表示されます。PDFが保存されているフォルダに移動し、必要なファイルにチェックを入れます。フォルダ全体を選択するには、フォルダのチェックボックスにチェックを入れます。
フォーマットバーのTXTボタンをクリックします。エンコーディング、ページ範囲、出力先のタブを持つ設定ウィザードが開きます。
用途に応じてANSI、UTF-8、またはUnicodeを選択します。出力フォルダを指定します。抽出したテキストを1ファイルに結合したい場合は、ファイル結合を有効にします。特定のページのみ抽出する場合は、ページ範囲を設定します。
開始を押します。コンバーターが各PDFを読み取り、テキストレイヤーを抽出し、選択したエンコーディングでプレーンTXTファイルに書き出します。進行状況のログがファイルごとのステータスを表示します。


Total PDF Converterにはスクリプトと自動化のためのコマンドラインインターフェースが含まれています:
PDFConverter.exe "C:\Reports\*.pdf" "C:\Output\" -cTXT -oUTF8
パラメーター:ソースパス(ワイルドカード対応)、出力先フォルダ、-cTXTで対象フォーマットを指定、-oUTF8でエンコーディングを指定。これを.batファイルに保存し、Windowsタスクスケジューラで定期実行できます。Total PDF Converter X(サーバーエディション)はGUIなしで動作し、ActiveXサポートを追加してWebアプリケーションや自動ドキュメントパイプラインへの統合が可能です。
| 機能 | オンラインコンバーター | Total PDF Converter |
|---|---|---|
| 一括変換(100件以上) | 不可 — 一度に1ファイル | 可能 — ファイル・フォルダ数の制限なし |
| エンコーディング選択 | 通常UTF-8のみ | ANSI、UTF-8、またはBOM付きUnicode |
| ページ範囲の指定 | ほとんどなし | 可能 — 任意のページ範囲 |
| 出力を1ファイルに結合 | 不可 | 可能 |
| コマンドライン / 自動化 | 不可 | 可能 — CLI + .batスクリプト |
| ファイルサイズ制限 | 通常10~50 MB | 制限なし |
| プライバシー | ファイルを第三者サーバーにアップロード | 100%オフライン — ファイルはPC上に保持 |
| 段組みレイアウトの処理 | 文字化けすることが多い | 段組みの順序を正確に読み取り |
コンバーターはPDF内部のテキストレイヤー(グリフ位置、エンコーディングマップ、埋め込みフォント)を読み取ります。段組み文書、表、多言語テキストが正確に処理されます。出力は生のPDFオブジェクト順ではなく、自然な読み順に従います。
PDF 1.0からPDF 2.0まで、暗号化ファイル(パスワード入力可)、リニアライズPDF、埋め込みフォント付きファイルなど、Total PDF Converterはすべてに対応します。
1つのツールでPDFを15以上の形式に変換:DOC、DOCX、RTF、XLS、XLSX、CSV、HTML、XHTML、TIFF、JPEG、PNG、BMP、EPS、PS、PDF/A、Unicodeテキスト。1つのライセンスであらゆる変換タスクに対応できます。
Total PDF Converter XはGUIなしのバックグラウンドプロセスとして動作します。ActiveXまたはコマンドラインからコマンドを受け取り、24時間体制でPDFを処理します。ドキュメント取り込み、ヘルプデスクシステム、自動アーカイブワークフローに最適です。
30日間の無料体験版をダウンロード — メールアドレスやクレジットカードは不要です。個人ライセンスは$39.90で、1年間の無料アップグレードが含まれます。Windows 7/8/10/11対応。
"当社では毎月数千件の保険請求書類をPDFで受け取っています。テキストを抽出して不正検知用の分析データベースに取り込んでいます。Total PDF ConverterはUTF-8エンコーディングで3,000ファイルを約10分で処理します。段組みレイアウトや表も正しい読み順で出力されます。コマンドラインモードでタスクスケジューラにより毎晩自動実行しています。"
Stefan Richter Data Analyst, Insurance Company
"当館のデジタル化プロジェクトには1990年代にまで遡る80,000件のPDF文書があります。全文検索インデックス用に5,000件ずつバッチでプレーンテキストに変換しています。Total PDF ConverterはPDF 1.2からPDF 2.0まで問題なく処理します。結合オプションも便利で、1つのコレクションのテキストをすべて1ファイルにまとめてコーパス分析に使っています。"
Amira Hassan Digital Archivist, University Library
"規制当局への提出文書はロックされたPDFで届きます。パスワードでロック解除後、Total PDF Converterでテキストを抽出してコンプライアンス審査システムに取り込みます。ページ範囲の指定で時間を節約できます。500ページの付録ではなく、要約セクションだけが必要なので。エンタープライズソリューションと比較して優れたコストパフォーマンスです。"
Carlos Mendez Compliance Officer, Pharmaceutical Company
無料トライアルをダウンロードして、ファイルを数分で変換。
クレジットカードもメールアドレスも不要。