У вас есть папки с DOC- и DOCX-файлами, и вам нужно тело читаемого текста, а не форматирование — для полнотекстового индексирования, загрузки в поисковый движок, NLP- и машинно-обучаемых пайплайнов, проверки eDiscovery или долгосрочного архивирования. Открывать каждый файл в Word и сохранять как чистый текст не масштабируется дальше пары файлов и оставляет за собой артефакты форматирования Word. Total Doc Converter X снимает форматирование Word и пишет чистый UTF-8 или ANSI текст из командной строки, пакетно, без графического интерфейса и без установки Microsoft Word. Установите его на сервер Windows, вызывайте из скрипта или через ActiveX, и он будет работать автоматически.
*.docx), и конвертер обработает все подходящие файлы за один запуск
(30 дней, без email)
(серверная лицензия, бессрочная)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
DOC и DOCX — это форматы Microsoft Word, рассчитанные на чтение и редактирование человеком. Файл DOCX — это ZIP-контейнер с XML-частями, встроенными медиа, стилями, историей правок, комментариями и отслеженными изменениями. Поисковому движку, индексатору, токенизатору LLM или пайплайну eDiscovery всё это не нужно — ему нужен читаемый текст. Подача этим системам сырых Word-файлов заставляет каждого потребителя поставлять собственный парсер DOC/DOCX, и эти парсеры расходятся в крайних случаях.
TXT — это наименьший общий знаменатель. Каждый поисковый индексатор, каждый NLP-инструментарий, каждый grep-подобный инструмент, каждая утилита diff читает чистый текст одинаково. Конвертация Word в TXT один раз, на сервере, даёт каждому дальнейшему потребителю один и тот же чистый ввод. Таблицы уплощаются в строки, разделённые табуляциями, или переносы строк. Изображения исчезают. Верхние и нижние колонтитулы могут быть сохранены или удалены в зависимости от вашего флага. Остаётся содержимое тела, готовое для индексирования или извлечения признаков.
| DOC / DOCX | TXT | |
|---|---|---|
| Содержимое | Текст + форматирование + медиа | Только текст |
| Размер файла | Десятки-сотни КБ | Обычно 5–20% от исходного |
| Индексирование | Требует парсер DOC/DOCX | Работает с любым индексатором или токенизатором |
| Таблицы | Структурированные ячейки | Уплощены в строки, разделённые табуляциями |
| Изображения | Встроены | Удалены |
| Аудитория | Рецензенты, редакторы | Поиск, NLP, архивирование, eDiscovery |
Скачайте установщик по ссылке выше и запустите его на вашем сервере или рабочей станции Windows. Установка занимает меньше минуты. Microsoft Word, LibreOffice или браузер не требуются — конвертер разбирает DOC и DOCX напрямую с помощью собственного движка и пишет чистый текст в указанной вами кодировке.
Откройте cmd.exe или PowerShell. Исполняемый файл конвертера — DOCConverter.exe, расположенный в папке установки (обычно C:\Program Files\CoolUtils\TotalDocConverterX\). Добавьте его в системную переменную PATH или используйте полный путь в командах.
Простейшая команда конвертирует все DOCX-файлы в папке в TXT:
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8
Эта команда обрабатывает каждый файл .docx в папке C:\Docs\ и сохраняет полученные TXT-файлы в C:\Output\. Каждый Word-файл создаёт один TXT с тем же базовым именем. Используйте *.doc для устаревших документов Word 97–2003 или *.do*, чтобы захватить оба формата за один проход.
Управляйте выходным TXT с помощью дополнительных флагов:
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log
-Encoding UTF-8 — кодировка вывода (UTF-8, UTF-16, ANSI, 1251, 1252 и т.д.)-BOM 0 — подавить метку порядка байтов UTF-8; используйте -BOM 1, чтобы её записать-LineBreaks CRLF — Windows-стиль \r\n или LF для Unix-стиля \n-log C:\Logs\word2txt.log — записать лог конвертации для проверкиСохраните команду в файле .bat и запланируйте его через Планировщик задач Windows:
@echo off "C:\Program Files\CoolUtils\TotalDocConverterX\DOCConverter.exe" C:\Incoming\*.docx C:\Archive\TXT\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log
Эта команда запускает конвертацию каждую ночь (или с любым заданным интервалом) и записывает лог-файл, чтобы вы могли проверить результаты. Свяжите выходную папку с вашим поисковым индексатором или задачей загрузки в NLP, и пайплайн будет работать от начала до конца без ручного вмешательства.
Total Doc Converter X включает полный интерфейс ActiveX. Вы можете вызывать конвертер из любой COM-совместимой среды — .NET, VBScript, PHP, Python, Ruby или ASP. Это позволяет встроить конвертацию Word в Text в ваше веб-приложение, платформу eDiscovery или рабочий процесс обработки документов без запуска командной строки.
Пример (C#/.NET):
DOCConverterX Cnv = new DOCConverterX();
Cnv.Convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");
Пример (PHP):
$c = new COM("DOCConverter.DOCConverterX");
$c->convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");
Тот же вызов работает из ASP.NET, VBScript, Python, Ruby, Perl и JavaScript (Windows Script Host). Ваше веб-приложение может принимать загруженные Word-файлы и возвращать чистый UTF-8 текст индексатору, эндпойнту LLM или слою хранения в реальном времени.
| Функция | Онлайн-конвертеры | Total Doc Converter X |
|---|---|---|
| Пакетная обработка | По одному файлу за раз | Неограниченное количество файлов за раз |
| Конфиденциальность файлов | Файлы загружаются на сторонний сервер | Файлы не покидают ваш компьютер |
| Управление кодировкой | Только UTF-8, BOM принудительно | UTF-8, UTF-16, ANSI, кодовые страницы, BOM вкл./выкл. |
| Многоязычное содержимое | Непоследовательно на CJK, RTL-письменностях | Полный Unicode сохранён |
| Автоматизация | Только вручную | Командная строка, .bat, Планировщик задач, ActiveX |
| Серверное развёртывание | Невозможно | Разработан для серверов, GUI не требуется |
| Требуется установленный Word | Не применимо | Нет |
| Требуется интернет | Да | Нет |
Конвертер разбирает DOC и DOCX напрямую. Вам не нужны Microsoft Office, LibreOffice или какой-либо текстовый процессор, установленный на сервере. Это позволяет избежать расходов на лицензии и хорошо известной нестабильности автоматизации Word в автоматических сценариях.
Total Doc Converter X разработан для автоматической работы. Никаких окон GUI, диалоговых окон, запросов подтверждения. Он работает тихо из командной строки или как часть сервиса — именно то, что нужно серверу в продакшене.
Поисковые индексаторы, NLP-фреймворки и устаревшие архивы — у каждого свои правила кодирования. Total Doc Converter X пишет UTF-8 с BOM или без, UTF-16 LE или BE, кодовые страницы Windows ANSI 1251 и 1252 и любую другую кодовую страницу, зарегистрированную в системе. Кириллические договоры, японские руководства по продуктам, арабская корреспонденция и немецкая техническая документация — все они переживают конвертацию без потерь, конвертер читает исходный DOC/DOCX как Unicode и пишет выбранную кодировку без lossy-транслитерации. Установите -Encoding один раз в .bat-файле, и вывод будет соответствовать дальнейшим потребителям байт за байтом.
Тот же инструмент командной строки конвертирует Word в PDF, HTML, RTF, XLS, TIFF, JPEG и другие форматы. Одна установка покрывает все ваши потребности в конвертации Word. Замените -c TXT на -c PDF, и вы получите PDF на выходе с теми же функциями пакетной обработки и автоматизации.
(30 дней, без email и кредитной карты)
(серверная лицензия, бессрочная)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
"На каждое дело мы обрабатываем несколько тысяч DOC- и DOCX-вещественных доказательств. Total Doc Converter X запускается ночным пакетом на сервере eDiscovery и выдаёт UTF-8 текстовые копии для поиска по ключевым словам и концептуальной кластеризации. Тело текста чистое: никаких артефактов Word, никакого шума колонтитулов, таблицы уплощены в табуляции. Установка -BOM 0 была той маленькой деталью, которая сделала наш индексатор счастливым с первого раза."
Caroline Whitford Litigation Support Specialist, Mid-Atlantic Law Group
"Мы подаём корпуса договоров в пайплайн эмбеддингов для retrieval-augmented поиска. Разбор DOCX внутри пайплайна был медленным и хрупким, а python-docx расходился с Word по ячейкам таблиц. Предварительная конвертация в чистый TXT с помощью DOCConverter.exe убрала обе проблемы. .bat-файл живёт в Планировщике задач, задание эмбеддингов читает TXT, и мы перестали бороться с Word XML."
Devansh Iyer NLP Engineer
"Комплаенс попросил нас хранить чистые текстовые копии каждого клинического документа рядом с оригиналами для долгосрочного архивирования. Мы выбрали Total Doc Converter X, потому что ему не нужен Word на файловом сервере, и флаг кодировки позволил нам стандартизироваться на UTF-8 без BOM по всему архиву. Документация могла бы быть подробнее по правилам уплощения таблиц, но поддержка отвечала на наши вопросы в тот же день."
Margaret Holloway Records Manager, Regional Health Network
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8. Она конвертирует все Word-файлы в исходной папке в TXT. Используйте *.doc для устаревших файлов Word 97–2003 или *.do*, чтобы захватить и DOC, и DOCX за один запуск.-Encoding, за которым следует целевая кодировка. Поддерживаемые значения: UTF-8, UTF-16, UTF-16BE, ANSI и любая кодовая страница Windows, зарегистрированная в системе (например, 1251 для кириллической Windows или 1252 для западноевропейской). Байты вывода точно соответствуют тому, что ожидает дальнейший индексатор или парсер.-BOM 0, чтобы записать чистый поток UTF-8 без метки порядка байтов. Используйте -BOM 1, чтобы выдать BOM. Некоторые поисковые индексаторы и JSON-парсеры отвергают файлы, начинающиеся с BOM, в то время как некоторые нативные инструменты Windows требуют её — флаг позволяет соответствовать любой стороне без постобработки.-Encoding UTF-8 для полного покрытия Unicode в одном байтовом потоке или выберите кодовую страницу, если ваш архивный стандарт этого требует.-IncludeHeaders 0, чтобы убрать их полностью, или -IncludeHeaders 1, чтобы оставить. Номера страниц удаляются, потому что в TXT нет понятия страниц.DOCConverter.DOCConverterX). Вы можете вызывать его из .NET, PHP, Python, VBScript, ASP, Ruby, Perl и любой другой COM-совместимой среды. Ваше веб-приложение может принимать загруженные DOC/DOCX-файлы и возвращать UTF-8 текст индексатору или эндпойнту LLM в реальном времени.
string src="C:\\test\\Source.Doc";
string dest="C:\\test\\Dest.PDF";
DocConverterX Cnv = new DocConverterX();
Cnv.Convert(src, dest, "-c PDF -log c:\\test\\Doc.log");
MessageBox.Show("Конвертация завершена!");
Скачать пример .NET Doc Converter
dim C
Set C=CreateObject("DocConverter.DocConverterX")
C.Convert "c:\source.DOC", "c:\dest.TIF", "-cTIF -log c:\doc.log"
Response.Write C.ErrorMessage
set C = nothing
dim C
Set C=CreateObject("DocConverter.DocConverterX")
Response.Clear
Response.AddHeader "Content-Type", "binary/octet-stream"
Rresponse.AddHeader "Content-Disposition", "attachment; filename=test.pdf"
Response.BinaryWrite c.ConvertToStream("C:\www\ASP\Source.doc", "C:\www\ASP", "-cpdf -log c:\html.log")
set C = nothing
Некоторые другие примеры на C# специально для ASP.net. Если вам нужны примеры на других языках, пожалуйста, свяжитесь с нами. Мы создадим любой пример специально для вас.
$src="C:\test.doc";
$dest="C:\test.htm";
if (file_exists($dest)) unlink($dest);
$c= new COM("DocConverter.DocConverterX");
$c->convert($src,$dest, "-c htm -log c:\doc.log");
if (file_exists($dest)) echo "OK"; else echo "fail:".$c->ErrorMessage;
require 'win32ole'
c = WIN32OLE.new('DocConverter.DocConverterX')
src="C:\\test\\test.docx";
dest="C:\\test\\test.pdf";
c.convert(src,dest, "-c PDF -log c:\\test\\Doc.log");
if not File.exist?(dest)
puts c.ErrorMessage
end
import win32com.client
import os.path
c = win32com.client.Dispatch("DocConverter.DocConverterX")
src="C:\\test\\test.docx";
dest="C:\\test\\test.pdf";
c.convert(src, dest, "-c PDF -log c:\\test\\Doc.log");
if not os.path.exists(file_path):
print(c.ErrorMessage)
uses Dialogs, Vcl.OleAuto;
var
c: OleVariant;
begin
c:=CreateOleObject('DocConverter.DocConverterX');
C.Convert('c:\test\source.docx', 'c:\test\dest.pdf', '-cPDF -log c:\test\Doc.log');
IF c.ErrorMessage<> Then
ShowMessage(c.ErrorMessage);
end;
var c = new ActiveXObject("DocConverter.DocConverterX");
c.Convert("C:\\test\\source.docx", "C:\\test\\dest.pdf", "-c PDF");
if (c.ErrorMessage!="")
alert(c.ErrorMessage)
use Win32::OLE; my $src="C:\\test\\test.docx"; my $dest="C:\\test\\test.pdf"; my $c = CreateObject Win32::OLE 'DocConverter.DocConverterX'; $c->convert($src,$dest, "-c pdf -log c:\\test\\Doc.log"); print $c->ErrorMessage if -e $dest;
Скачайте пробную версию и конвертируйте файлы за считанные минуты.
Не требуется ни банковская карта, ни email.

Связанные темы
Преобразование DOCX в PDF через командную строку в пакетном режиме