契約書、レポート、フォームレターなど、DOCXファイルのバッチがあり、そこから生のテキストを抽出する必要があります。テキストを検索インデックスに送る、データベースにインポートする、CMSのコンテンツを整理するなどの目的があるかもしれません。Microsoft Wordは「名前を付けて保存」でプレーンテキストを作成できますが、一度に1ファイルのみで、デフォルトではANSIエンコーディングとなり、非ラテン文字がすべて失われます。Total Doc ConverterはDOCXをバッチでUnicodeテキスト(UTF-8またはUTF-16)にエクスポートし、アラビア語、中国語、キリル文字、アクセント付きラテン文字、絵文字など、すべてのグリフを手動で再エンコードすることなく保持します。
DOCXはXMLファイルのZIPアーカイブです。テキストとともにフォント、スタイル、画像、テーブル、ヘッダー、フッターを格納します。フォーマット情報がファイルサイズの大部分を占めます。インデックス作成、データ抽出、マイグレーションなど、テキストのみが必要な場合、DOCXラッパーは不要なオーバーヘッドです。
Unicodeテキストファイルには文字と改行のみが含まれます。どのオペレーティングシステムのどのエディタでも開けます。UTF-8はWebアプリケーション、データベース、APIの標準エンコーディングです。UTF-16は一部のレガシーWindowsツールで使用されます。どちらのエンコーディングもすべての書記体系をサポートし、異なるロケールでファイルを開いても文字化けが起こりません。
Total Doc Converterを起動します。左側のフォルダツリーにドライブとディレクトリが表示されます。DOCXファイルのあるフォルダに移動します。個別のファイルにチェックを入れるか、フォルダをチェックして内容すべてを選択します。
上部のフォーマットバーのTXTボタンをクリックします。設定ウィザードが開きます。
ウィザードでUnicode(UTF-8)またはUnicode(UTF-16)をエンコーディングとして選択します。出力先フォルダを指定します。すべてのテキストを1つのファイルにマージする場合は、Combine filesオプションを有効にします。
Startを押します。コンバーターは選択したすべてのファイルを処理し、フォーマットを除去し、選択したUnicodeエンコーディングでプレーンテキストを書き出します。ログに各ファイルの結果が表示されます。

Total Doc Converterにはスクリプティングと自動化のためのコマンドラインインターフェースが含まれています。典型的なコマンド:
DocConverter.exe "C:\Contracts\*.docx" "C:\Output\" -cTXT -oUTF8
パラメーター:ソースパス(ワイルドカード対応)、出力先フォルダ、-cTXTでターゲットフォーマットを設定、-oUTF8でエンコーディングを設定。これを.batファイルに保存し、Windows Task Schedulerで毎晩またはオンデマンドで実行するようスケジュールします。Total Doc Converter X(サーバーエディション)はGUIなしでWebアプリケーションやドキュメントワークフローに統合するためのActiveXサポートを追加します。
| 機能 | オンラインコンバーター | Total Doc Converter |
|---|---|---|
| バッチ変換(100+ファイル) | 不可 — 多くは一度に1ファイル | 可能 — ファイルとフォルダ無制限 |
| Unicodeエンコーディング選択 | 通常UTF-8のみ、制御不可 | BOM付きUTF-8またはUTF-16 |
| 出力を1ファイルに結合 | 不可 | 可能 |
| テーブル処理 | 除去または文字化け | タブ区切り値 |
| コマンドライン / 自動化 | 不可 | 可能 — CLI + .batスクリプティング |
| ファイルサイズ制限 | 通常10~50 MB | 制限なし |
| プライバシー | ファイルがサードパーティサーバーにアップロード | 100%オフライン — ファイルはPCから出ません |
| 多言語精度 | ばらつきあり — エンコーディングエラーが一般的 | 正確なBOM、CJK・アラビア語・キリル文字でテスト済み |
コンバーターは適切なBOMヘッダーを書き込み、選択したエンコーディングを使用します。中国語、日本語、韓国語、アラビア語、ヘブライ語、キリル文字、アクセント付きラテン文字は、代替文字や疑問符なしに変換を生き残ります。
テーブルはタブ区切りの行になります。箇条書きリストはプレーンな行になります。ヘッダーとフッターは含めるか除去するか選択できます。出力はデータベース、検索エンジン、テキスト処理パイプラインへのインポートに対応しています。
同じツールでDOC、RTF、ODT、DOCM、HTML、TXTに対応しています。さまざまなフォーマットのドキュメントを受け取る場合、Total Doc Converterは1回のバッチですべてをUnicodeテキストに正規化します。
Total Doc Converter Xはサーバーエディションです。GUIなしのバックグラウンドプロセスとして動作し、ActiveXまたはコマンドラインでコマンドを受け付け、24時間ファイルを処理します。ドキュメント取り込みパイプライン、ヘルプデスクシステム、アーカイブワークフローに最適です。
30日間の無料トライアルをダウンロード — メールアドレスやクレジットカードは不要です。パーソナルライセンスは$49.90で、1年間の無料アップグレードが含まれます。Windows 7/8/10/11対応。
無料トライアルをダウンロード ライセンスを購入 — $49.90
"当社では数百のサプライヤーからDOCXファイルとして届く商品説明をインデックスしています。Total Doc Converterはバッチでテキストをすべてをインデックスしています。Total Doc ConverterはバッチでテキストをUTF-8に抽出します — 2,000ファイルを約3分で処理。出力はそのままElasticsearchパイプラインに入ります。このツールの前はアジア文字で止まってしまうPythonスクリプトを使っていました。"
Martin Lindqvist 検索エンジニア、Eコマース企業
"クライアントの申告書はスペイン語、ポルトガル語、ハイチ・クレオール語のDOCXで届きます。ケース管理データベース用にUnicodeテキストに変換しています。すべてのアクセントと特殊文字が保持されます。結合オプションが便利で、1つのケースのすべての申告書を弁護士のレビュー用に1つのテキストファイルにマージしています。"
Rebecca Torres パラリーガル、移民法律事務所
"翻訳者はDOCX、DOC、RTFでファイルを提出します。CATツールに送る前にすべてをUTF-8テキストに正規化しています。Total Doc Converterは3つのフォーマットすべてを1回のバッチで処理します。コマンドラインモードはTask Schedulerを介してサーバーで毎晩実行しています。日本語、中国語、韓国語のテキストも問題なく処理されます。"
Kenji Watanabe ITアドミニストレーター、翻訳エージェンシー
無料トライアルをダウンロードして、ファイルを数分で変換。
クレジットカードもメールアドレスも不要。