您有一个包含俄语、中文、阿拉伯语或其他非拉丁文字的Word文档文件夹,需要不带格式的原始文本。普通的另存为 → 纯文本会丢失特殊字符或将其替换为问号,因为默认的ANSI编码无法存储它们。Total Doc Converter可以将DOC和DOCX文件批量导出为Unicode纯文本(UTF-8或UTF-16)— 每个字符都被保留,每个文件都自动处理。
Microsoft Word的二进制(DOC)和基于XML的(DOCX)格式将文本与字体、样式、图像、表格、页眉、页脚和宏一起存储。文件可在Word或兼容编辑器中编辑。缺点:DOC/DOCX文件体积大,需要兼容的应用程序才能打开,并且在只需要文本内容时(例如索引、数据导入或NLP处理)包含不必要的格式。
Unicode文本文件包含不带格式的原始字符。UTF-8每个字符使用1–4个字节,是Web、Linux和大多数现代应用程序的标准编码。UTF-16使用2或4个字节,常见于旧版Windows应用程序和某些亚洲语言工作流。两种编码都涵盖Unicode标准中的所有文字系统 — 拉丁文、西里尔文、中文、阿拉伯文、天城文等。
启动Total Doc Converter。左侧的文件夹树显示您的驱动器。导航到包含DOC或DOCX文件的目录。文件列表显示名称、大小和日期。勾选单个文件或点击全选选择所有文件。启用包含子文件夹以处理嵌套目录。
点击顶部格式工具栏上的Unicode文本按钮。转换向导将打开。
选择Unicode编码:
指定目标目录。每个DOC文件生成一个具有相同基本名称的TXT文件。您可以保持原始文件夹层次结构或将所有内容合并到一个目录中。
按下开始。Total Doc Converter读取每个Word文件,提取文本内容,应用所选编码,并写入Unicode纯文本文件。进度日志显示状态。无需手动干预即可处理数百个文件。

Total Doc Converter包含用于自动处理的命令行界面:
DocConverter.exe "C:\Docs\*.doc" "C:\Output\" -cTXT -eUTF8
参数:源路径(支持通配符)、输出目录、-cTXT将目标格式设置为纯文本、-eUTF8选择UTF-8编码。如需UTF-16输出,请替换为-eUTF16。将此保存到.bat文件中,并使用Windows任务计划程序进行调度,即可实现传入文档的夜间批量转换。
| 编码 | 每字符字节数 | 最适合 | 兼容性 |
|---|---|---|---|
| ANSI(Windows-1252) | 1 | 仅英文文本 | 旧版Windows应用程序。会丢失非拉丁字符。 |
| UTF-8 | 1–4 | 多语言文本、Web、数据库 | 通用:Linux、macOS、Windows 10+、所有现代软件。 |
| UTF-16 LE | 2或4 | 亚洲语言、旧版Windows工具 | Windows记事本(经典版)、某些CJK应用程序。 |
| UTF-16 BE | 2或4 | 网络协议、Java | 大端系统、Java内部。 |
| 功能 | 在线DOC转TXT工具 | Total Doc Converter |
|---|---|---|
| 编码选择 | 很少 — 大多输出ANSI或自动检测 | UTF-8、UTF-16 LE、UTF-16 BE、ANSI |
| 批量处理 | 每次1–5个文件 | 无限文件,整个文件夹树 |
| 保留所有Unicode字符 | 不稳定 — 取决于服务商 | 是 — 源DOC中存储的每个字符都被保留 |
| 隐私 | 文件上传到第三方服务器 | 100%离线 — 文件不会离开您的电脑 |
| 命令行自动化 | 无 | 有 — 具有所有选项的完整CLI |
| 支持DOC和DOCX | 通常仅DOCX | DOC、DOCX、RTF、ODT、WPD、TXT |
| 文件大小限制 | 每文件50–100 MB | 无限制 |
Total Doc Converter写入带有正确BOM(字节顺序标记)的标准UTF-8或UTF-16。源Word文件中的每个字符 — 无论是拉丁文、西里尔文、中文、阿拉伯文、希伯来文,还是所有这些的混合 — 都在输出TXT中正确显示。没有替换字符、没有问号、没有乱码。
选择10个文件或10,000个文件都可以。Total Doc Converter使用相同的设置处理整个批次。无需逐个打开每个文件。启用后子文件夹自动包含在内。
同一工具可将DOC和DOCX转换为PDF、HTML、XLS、JPEG、TIFF和RTF。一个应用程序满足所有文档转换需求。只需单击一下即可切换目标格式。
使用.bat脚本和Windows任务计划程序安排转换。共享文件夹在夜间接收新的Word文件;到早上,UTF-8文本版本已准备好供数据库导入管道使用。
Total Doc Converter可打开DOC(Word 97–2003)、DOCX(Word 2007+)、RTF、ODT(OpenDocument)、WPD(WordPerfect)和纯TXT。混合格式的历史档案可一次性转换。
下载30天免费试用版 — 无需电子邮件或信用卡。个人许可证价格为$49.90,包含一年免费升级。支持Windows 7/8/10/11。
"我们从客户那里接收30种语言的Word文件。我们的翻译记忆工具需要UTF-8纯文本输入。Total Doc Converter可以批量处理200多个文件,并完整保留每个字符 — 罗马尼亚语变音符号、中文汉字、阿拉伯文字,一次运行全部处理。为我们节省了每个文件手动另存为的数小时时间。"
Elena Petrescu 翻译项目经理
"产品描述以Word文件形式从非洲和亚洲供应商处发来。我们需要UTF-8文本用于数据库导入。在使用Total Doc Converter之前,由于导出的是ANSI编码,导入脚本在遇到斯瓦希里语和印地语字符时会中断。现在我们安排了夜间.bat批量转换,管道运行顺畅。"
Kevin Ochieng 数据工程师,电子商务平台
"我们的档案包含15年的DOC和DOCX格式合同。事务所决定存储纯文本副本以供长期检索。Total Doc Converter在一个下午内将整个档案导出为UTF-8。唯一希望改进的是命令行模式能显示进度百分比,不过GUI中显示得很好。"
Isabelle Moreau 法务档案管理员,律师事务所