Конвертация HTM в Unicode-текст через командную строку — серверный пакетный конвертер

У вас есть папки с HTM- или HTML-файлами — собранные страницы, архивные бюллетени, выгруженные файлы справки, снимки интранета — и дальнейший пайплайн, которому нужен читаемый текст без какой-либо разметки. Поисковым индексаторам не нужен шум <div>. Токенизаторы NLP давятся встроенными скриптами. Юристам при проверке нужна проза, а не CSS. Total HTML Converter X удаляет HTM-разметку и пишет чистый Unicode-текст из командной строки, пакетно, без графического интерфейса и без браузерного движка. Установите его на сервер Windows, вызывайте из скрипта или через ActiveX, и пусть он питает ваш индексатор, вашу модель или ваш архив.

Что делает Total HTML Converter X

Пакетное извлечение — укажите маску (*.htm), и конвертер пройдёт по всем подходящим файлам за один запуск
Чистый Unicode на выходе — создаёт UTF-8 или UTF-16 текст с удалёнными разметкой, скриптами, стилями и комментариями
Управление кодировкой — выберите UTF-8, UTF-16 LE/BE, с BOM или без, чтобы соответствовать потребителю текста
Полное покрытие символов — сохраняет кириллицу, CJK, арабский, иврит, деванагари, латиницу с диакритикой и эмодзи из исходного HTM
Двунаправленный текст — сохраняет арабские и ивритские блоки в логическом порядке, чтобы инструменты поиска и NLP видели правильные границы слов
Без браузерного движка — конвертер разбирает HTM напрямую без Chromium или Edge, установленных на сервере
ActiveX / COM — вызывайте конвертер из .NET, VBScript, PHP, Python или любой COM-совместимой среды для встраивания извлечения текста в ваше приложение
Скрипты .bat — сохраняйте команды в пакетных файлах и планируйте их через Планировщик задач Windows для полностью автоматического извлечения

Конвертация HTM в Unicode-текст через командную строку

Скачать бесплатно

(30 дней, без email)

Купить лицензию

(серверная лицензия, бессрочная)

Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022

HTM и Unicode TXT: зачем конвертировать?

HTM (и HTML) — это язык разметки, предназначенный для браузеров. Файл смешивает прозу с тегами, атрибутами, инлайновыми стилями, JavaScript и ссылками на внешние ресурсы. Поисковый индексатор, проглатывающий сырой HTM, в итоге оценивает блоки <script> и имена CSS-классов наравне с реальным контентом. Токенизатор LLM расходует контекст на шум. Grep по HTM-архиву возвращает совпадения внутри атрибутов, а не в тексте тела.

Unicode TXT — это чистый текст в UTF-8 или UTF-16. Никаких тегов, никакой разметки, никакого форматирования — только читаемые символы документа. Любой поисковый движок, NLP-инструментарий, анализатор логов и архивная утилита потребляет его без предобработки. Конвертация задумана как lossy: изображения, макет и стили исчезают. Остаётся текстовое содержимое в правильном логическом порядке, с сохранённой исходной кодировкой.

	HTM	Unicode TXT
Содержимое	Разметка, скрипты, стили, проза	Только проза
Шум при индексации	Высокий (теги, классы, скрипты)	Отсутствует
Кодировка	Объявлена в `<meta>`, часто непоследовательно	Явная UTF-8 или UTF-16
Готовность к токенизации	Сначала нужен парсер	Да, сразу
Удобство для grep / awk	Плохое (совпадения внутри тегов)	Отличное
Аудитория	Браузеры	Поиск, NLP, аналитика, архивы

Как конвертировать HTM в Unicode-текст из командной строки

Шаг 1. Установите Total HTML Converter X

Скачайте установщик по ссылке выше и запустите его на вашем сервере или рабочей станции Windows. Установка занимает меньше минуты. Браузер, Microsoft Office или среда выполнения Java не требуются — конвертер разбирает HTM собственным движком и пишет Unicode-текст напрямую.

Шаг 2. Откройте командную строку

Откройте cmd.exe или PowerShell. Исполняемый файл конвертера — HTMLConverter.exe, расположенный в папке установки (обычно C:\Program Files\CoolUtils\TotalHTMLConverterX\). Добавьте его в системную переменную PATH или используйте полный путь в командах.

Шаг 3. Запустите базовое извлечение

Простейшая команда удаляет разметку из каждого HTM-файла в папке и пишет UTF-8 текст:

HTMLConverter.exe C:\Pages\*.htm C:\Output\ -c TXT -Encoding UTF-8

Эта команда обрабатывает каждый файл .htm в папке C:\Pages\ и сохраняет полученные файлы .txt в C:\Output\. Каждый HTM создаёт один TXT с тем же базовым именем и текстом тела в UTF-8.

Шаг 4. Управление кодировкой и логированием

Настройте вывод под потребителя текста:

HTMLConverter.exe C:\Pages\*.htm C:\Output\ -c TXT -Encoding UTF-16 -BOM 1 -log C:\Logs\htm2txt.log

-Encoding UTF-8 — по умолчанию; работает для большинства поисковых и NLP-пайплайнов
-Encoding UTF-16 — полезно для устаревшего инструментария Windows, ожидающего широкие символы
-BOM 1 или -BOM 0 — записать или пропустить метку порядка байтов; многие индексаторы предпочитают без BOM
-log C:\Logs\htm2txt.log — записывать каждый обработанный файл и любые предупреждения парсера

Шаг 5. Автоматизируйте с помощью .bat-файла

Сохраните команду в файле .bat и запланируйте его через Планировщик задач Windows:

@echo off
"C:\Program Files\CoolUtils\TotalHTMLConverterX\HTMLConverter.exe" C:\Incoming\*.htm C:\Archive\TXT\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\htm2txt.log

Эта команда запускается каждую ночь (или с любым заданным интервалом) и кладёт UTF-8 текст в архивную папку, готовую к подхвату поисковым индексатором, NLP-задачей или grep-проверкой.

Интеграция через ActiveX / COM

Total HTML Converter X регистрируется как полноценный объект ActiveX. Вы можете вызывать его из любой COM-совместимой среды — .NET, VBScript, PHP, Python, Ruby или ASP. Это позволяет встроить извлечение Unicode-текста из HTM в ваш сервис загрузки данных, интранет-портал или NLP-пайплайн без запуска командной строки.

Пример (C#/.NET):

HTMLConverterX Cnv = new HTMLConverterX();
Cnv.Convert("C:\\Pages\\report.htm", "C:\\Output\\report.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\htm.log");

Пример (PHP):

$c = new COM("HTMLConverter.HTMLConverterX");
$c->convert("C:\\Pages\\report.htm", "C:\\Output\\report.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\htm.log");

Тот же вызов работает из ASP.NET, VBScript, Python, Ruby, Perl и JavaScript (Windows Script Host). Ваш сервис может принимать загруженный HTM и возвращать чистый Unicode-текст вызывающей стороне в том же запросе.

Онлайн-конвертеры и Total HTML Converter X

Функция	Онлайн-конвертеры	Total HTML Converter X
Пакетная обработка	По одному файлу за раз	Неограниченное количество файлов за раз
Конфиденциальность файлов	Файлы загружаются на сторонний сервер	Файлы не покидают ваш компьютер
Управление кодировкой	Обычно только UTF-8	UTF-8, UTF-16 LE/BE, переключение BOM
Не-латинские письменности	Непоследовательно (моджибаке на CJK, арабском)	Полное покрытие Unicode, BIDI сохранён
Автоматизация	Только вручную	Командная строка, .bat, Планировщик задач, ActiveX
Серверное развёртывание	Невозможно	Разработан для серверов, GUI не требуется
Пропускная способность	Ограничена скоростью загрузки	Локальный ввод-вывод, тысячи файлов в час
Требуется интернет	Да	Нет

Когда нужна конвертация HTM в Unicode-текст через командную строку

Питание поискового индекса. Elasticsearch, Solr, OpenSearch и Meilisearch — все они индексируют чистый текст быстрее и точнее, чем сырой HTM. Ночной пакет удаляет разметку из поступающих страниц и кладёт UTF-8 в наблюдаемую папку индексатора.
Пайплайны NLP и LLM. Токенизаторы, сплиттеры предложений и модели эмбеддингов потребляют чистый текст. Подача сырого HTM расходует контекст на теги и портит статистику. Предварительное извлечение чистого Unicode-текста решает обе проблемы до того, как модель увидит ввод.
Постобработка веб-скрапинга. Краулеры сохраняют страницы как HTM. На этапе текстового анализа нужна проза без меню навигации, скриптов и нижних колонтитулов, очищенная от тегов. Конвертер выполняет проход по разметке; ваши скрипты выполняют фильтрацию контента.
Юридическое хранение и e-discovery. Команды комплаенса сохраняют HTM-коммуникации, и им нужны текстовые копии с возможностью поиска по ключевым словам для проверки. Чистый UTF-8 — формат, который любая платформа e-discovery поглощает без преобразования.
Grep и аудит архивов. Grep по папке HTM-файлов возвращает совпадения внутри атрибутов class и JavaScript-строк. Grep по извлечённым TXT возвращает только совпадения в реальном тексте — именно тот ответ, который нужен аудитору.

Почему Total HTML Converter X

Настоящий Unicode, а не ASCII-приближение

Вывод — это честный UTF-8 или UTF-16. Кириллица остаётся кириллицей, CJK остаётся CJK, арабский и иврит сохраняют свои символы в логическом порядке. Никакой транслитерации, никакого выкидывания символов, никакой замены на знак вопроса — что было читаемо в HTM, остаётся читаемым в TXT.

Настоящее серверное приложение

Total HTML Converter X создан для автоматической работы. Никаких окон GUI, диалоговых окон, запросов подтверждения. Он работает тихо из командной строки или как часть сервиса — именно то, что нужно индексирующей задаче, NLP-пайплайну или архивному воркеру.

Кодировка под вашим контролем

Поисковые движки, NLP-инструментарии и устаревшие системы — каждый ожидает свои последовательности байтов. Конвертер выставляет кодировку и BOM как флаги командной строки, поэтому вы пишете UTF-8 без BOM для Elasticsearch, UTF-16 LE с BOM для инструмента только под Windows и UTF-8 с BOM для рецензента, работающего в Notepad — из одной установки.

Не только TXT

Тот же инструмент командной строки конвертирует HTM в PDF, DOC, XLS, TIFF, JPEG, RTF и другие форматы. Одна установка покрывает все потребности извлечения из HTM на сервере. Замените -c TXT на -c PDF, и вы получите архивный PDF на выходе с теми же функциями пакетной обработки и автоматизации.

Скачать бесплатно

(30 дней, без email и кредитной карты)

Купить лицензию

(серверная лицензия, бессрочная)

Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022

Конвертер HTML-файлов для серверов Отзывы клиентов 2026

ОценитеОценка 4.7/5 на основе отзывов клиентов

"Мы сжигали токены контекста на сырых HTM-тегах ещё до того, как наша модель эмбеддингов видела реальный текст. Total HTML Converter X каждый час кладёт чистый UTF-8 в наше хранилище загрузки. Страницы на кириллице и деванагари проходят без потерь, блоки BIDI выходят в логическом порядке, а наш токенизатор счастлив. Перплексия на том же корпусе упала, как только мы перестали кормить его разметкой."

5 Star Priya Krishnamurthy NLP Engineer, Conversational AI Startup

"Наш кластер Elasticsearch индексирует 2,3 миллиона архивных HTM-бюллетеней на девяти языках. Предварительное извлечение чистого UTF-8 этим конвертером сократило размер индекса примерно на сорок процентов и сделало запросы по фразам реально возвращающими релевантные совпадения вместо имён CSS-классов. Связка .bat плюс Планировщик задач работает автоматически на Server 2019 и за шесть месяцев не дала сбоя ни разу."

5 Star Stefan Holzer Search Architect, EU Public Sector Portal

"Мы храним HTM-копии клиентских коммуникаций для юридического хранения. Рецензентам нужны были текстовые версии, удобные для grep, для поиска по ключевым словам. Конвертер выдаёт UTF-8 без BOM ровно так, как ожидает наша платформа e-discovery, а лог-файл достаточно подробен, чтобы удовлетворить наш аудиторский след. Документация по флагу BOM могла бы быть яснее, но поддержка прояснила всё в тот же день, когда мы спросили."

4 Star Margaret Whitlock Compliance Lead, Insurance Holding Group

Часто задаваемые вопросы ▼

Какая команда конвертирует HTM в Unicode-текст?

Базовая команда: HTMLConverter.exe C:\Pages\*.htm C:\Output\ -c TXT -Encoding UTF-8. Она удаляет разметку из каждого HTM-файла и пишет чистый UTF-8 текст. Добавьте -Encoding UTF-16, -BOM 0 или -log для управления выходным файлом.

Какие кодировки Unicode поддерживаются?

UTF-8, UTF-16 LE и UTF-16 BE. Используйте -Encoding UTF-8 для поисковых индексаторов и NLP-пайплайнов, -Encoding UTF-16 для устаревшего инструментария Windows, ожидающего широкие символы. По умолчанию используется UTF-8 без BOM, что подходит Elasticsearch, Solr и большинству современных потребителей.

Можно ли включить или пропустить метку порядка байтов?

Да. -BOM 1 записывает BOM в начале каждого файла (EF BB BF для UTF-8, FF FE для UTF-16 LE). -BOM 0 пропускает её. Большинство поисковых и NLP-цепочек предпочитают без BOM; некоторые просмотрщики только под Windows и инструменты SQL bulk-import требуют её.

Сохраняет ли конвертер не-латинские письменности и эмодзи?

Да. Кириллица, CJK (китайский, японский, корейский), арабский, иврит, деванагари, тайский, греческий, латиница с диакритикой и эмодзи — все они переживают извлечение без изменений. Вывод — настоящий Unicode: никакой транслитерации, никакой замены на знак вопроса, никакого выкидывания символов.

Как обрабатывается двунаправленный текст (арабский, иврит)?

Блоки BIDI пишутся в логическом порядке, в том виде, в каком их хранит исходный HTM. Поисковые движки и токенизаторы NLP ожидают логический порядок для корректного вычисления границ слов. Визуальное переупорядочение происходит на этапе отображения в потребляющем приложении, а не в текстовом файле.

Попадут ли инлайновые скрипты, стили и комментарии в вывод?

Нет. <script>, <style> и HTML-комментарии удаляются перед записью текста. Вывод содержит только читаемое содержимое тела — то, что человек увидел бы в браузере, минус макет. Это именно то, что нужно поисковому индексатору или токенизатору LLM.

Можно ли интегрировать извлечение в веб-сервис?

Да. Total HTML Converter X регистрируется как объект COM/ActiveX (HTMLConverter.HTMLConverterX). Вызывайте его из .NET, PHP, Python, VBScript, ASP, Ruby или Perl. Ваш сервис принимает загруженный HTM и возвращает Unicode-текст в том же запросе, без необходимости запускать командную строку.

Примеры использования Total HTML Converter X

Конвертация HTML-файлов с помощью Total HTML Converter X и .NET


string src  = @"C:\test\Source.html";
string dest = @"C:\test\Dest.pdf";

var cnv = new HTMLConverterX();
cnv.Convert(src, dest, "-cPDF -log c:\\test\\HTML.log");

if (!string.IsNullOrEmpty(cnv.ErrorMessage))
    throw new Exception(cnv.ErrorMessage);

Конвертация HTML-файлов на веб-серверах с помощью Total HTML Converter X

public static class Function1
    {
        [FunctionName("Function1")]
        public static async Task Run(
            [HttpTrigger(AuthorizationLevel.Anonymous, "get", "post", Route = null)] HttpRequest req,
            ILogger log)
        {
            StringBuilder sbLogs = new StringBuilder();
            sbLogs.AppendLine("started...");
            try
            {
                ProcessStartInfo startInfo = new ProcessStartInfo();
                startInfo.CreateNoWindow = true;
                startInfo.UseShellExecute = false;
                var assemblyDirectoryPath = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location);
                assemblyDirectoryPath = assemblyDirectoryPath.Substring(0, assemblyDirectoryPath.Length - 4);

                var executablePath = $@"{assemblyDirectoryPath}\Converter\HTMLConverterX.exe";
                sbLogs.AppendLine(executablePath + "...");
                var srcPath = $@"{assemblyDirectoryPath}\src\sample.html";
                var outPath = Path.GetTempFileName() + ".pdf";
                startInfo.FileName = executablePath;

                if (File.Exists(outPath))
                {
                    File.Delete(outPath);
                }

                if (File.Exists(executablePath) && File.Exists(srcPath))
                {
                    sbLogs.AppendLine("files exists...");
                }
                else
                    sbLogs.AppendLine("EXE & source files NOT exists...");
                startInfo.WindowStyle = ProcessWindowStyle.Hidden;
                startInfo.Arguments = $"\"{srcPath}\" \"{outPath}\" -cPDF";
                using (Process exeProcess = Process.Start(startInfo))
                {
                    sbLogs.AppendLine($"wait...{DateTime.Now.ToString()}");
                    exeProcess.WaitForExit();
                    sbLogs.AppendLine($"complete...{DateTime.Now.ToString()}");
                }
                sbLogs.AppendLine("Conversion complete.");
            }
            catch (Exception ex)
            {
                sbLogs.AppendLine(ex.ToString());
            }

            return new OkObjectResult(sbLogs);
        }
    }

Подробнее об Azure Functions.

Конвертация HTML-файлов и живых URL на веб-серверах с помощью Total HTML Converter X

dim C
Set C=CreateObject("HTMLConverter.HTMLConverterX")
C.Convert "c:\source.html", "c:\dest.jpg", "-cJPG -log c:\html.log"
C.Convert "https://www.coolutils.com/", "c:\URL Page.pdf", "-cPDF -log c:\html.log"
Response.Write C.ErrorMessage
set C = nothing

Передача готового PDF в поток напрямую из ASP

dim C
Set C=CreateObject("HTMLConverter.HTMLConverterX")
Response.Clear
Response.AddHeader "Content-Type", "binary/octet-stream"
Response.AddHeader "Content-Disposition", "attachment; filename=test.pdf"
Response.BinaryWrite C.ConvertToStream("C:\www\ASP\Source.html", "C:\www\ASP", "-cpdf -log c:\html.log")
set C = nothing

Конвертация HTML- и MHT-файлов с помощью PHP и Total HTML Converter X

$src="C:\\test\\test.html";
$dest="C:\\test\\test.pdf";
if (file_exists($dest)) unlink($dest);
$c= new COM("HTMLConverter.HTMLConverterX");
$c->convert($src,$dest, "-cPDF -log c:\\HTML.log");
if (file_exists($dest)) echo "OK"; else echo "fail:".$c->ErrorMessage;

Конвертация HTML-файлов с помощью Total HTML Converter X и Ruby

require 'win32ole'
c = WIN32OLE.new('HTMLConverter.HTMLConverterX')

src = "C:\\test\\test.html"
dest = "C:\\test\\test.pdf"

c.convert(src, dest, "-cPDF -log c:\\test\\HTML.log")

if not File.exist?(dest)
  puts c.ErrorMessage
end

Конвертация HTML-файлов с помощью Total HTML Converter X и Python

import win32com.client
import os.path

c = win32com.client.Dispatch("HTMLConverter.HTMLConverterX")

src  = "C:\\test\\test.html"
dest = "C:\\test\\test.pdf"

c.convert(src, dest, "-cPDF -log c:\\test\\HTML.log")

if not os.path.exists(dest):
    print(c.ErrorMessage)

Конвертация HTML-файлов с помощью Pascal и Total HTML Converter X

uses Dialogs, Vcl.OleAuto;

var
  c: OleVariant;
begin
  c := CreateOleObject('HTMLConverter.HTMLConverterX');
  c.Convert('c:\test\source.html', 'c:\test\dest.pdf', '-cPDF -log c:\test\HTML.log');
  if c.ErrorMessage <> '' then
    ShowMessage(c.ErrorMessage);
end;

Конвертация HTML-файлов на веб-серверах с помощью Total HTML Converter X

var c = new ActiveXObject("HTMLConverter.HTMLConverterX");
c.Convert("C:\\test\\source.html", "C:\\test\\dest.pdf", "-cPDF");
if (c.ErrorMessage != "")
  alert(c.ErrorMessage)

Конвертация HTML-файлов с помощью Total HTML Converter X и Perl

use Win32::OLE;

my $src  = "C:\\test\\test.html";
my $dest = "C:\\test\\test.pdf";

my $c = CreateObject Win32::OLE 'HTMLConverter.HTMLConverterX';
$c->convert($src, $dest, "-cPDF -log c:\\test\\HTML.log");
print $c->ErrorMessage if -e $dest;

Начните работать сейчас!

Скачайте пробную версию и конвертируйте файлы за считанные минуты.
Не требуется ни банковская карта, ни email.

⬇ Скачать пробную версию Windows 7/8/10/11 • 159 MB

Конвертер HTML-файлов для серверов Preview1

Связанные темы

Конвертация HTML в PDF через командную строку — серверный пакетный конвертер
Конвертация HTML в JPG через командную строку — серверный пакетный конвертер
Конвертация HTML в DOC через командную строку — серверный пакетный конвертер
Конвертация HTML в XLS через командную строку — серверный пакетный конвертер

Конвертация HTM в Unicode-текст через командную строку — серверный пакетный конвертер

Что делает Total HTML Converter X

HTM и Unicode TXT: зачем конвертировать?

Как конвертировать HTM в Unicode-текст из командной строки

Шаг 1. Установите Total HTML Converter X

Шаг 2. Откройте командную строку

Шаг 3. Запустите базовое извлечение

Шаг 4. Управление кодировкой и логированием

Шаг 5. Автоматизируйте с помощью .bat-файла

Интеграция через ActiveX / COM

Онлайн-конвертеры и Total HTML Converter X

Когда нужна конвертация HTM в Unicode-текст через командную строку

Почему Total HTML Converter X

Настоящий Unicode, а не ASCII-приближение

Настоящее серверное приложение

Кодировка под вашим контролем

Не только TXT

Конвертер HTML-файлов для серверов Отзывы клиентов 2026

Часто задаваемые вопросы ▼

Какая команда конвертирует HTM в Unicode-текст?

Какие кодировки Unicode поддерживаются?

Можно ли включить или пропустить метку порядка байтов?

Сохраняет ли конвертер не-латинские письменности и эмодзи?

Как обрабатывается двунаправленный текст (арабский, иврит)?

Попадут ли инлайновые скрипты, стили и комментарии в вывод?

Можно ли интегрировать извлечение в веб-сервис?

Примеры использования Total HTML Converter X

Конвертация HTML-файлов с помощью Total HTML Converter X и .NET

Конвертация HTML-файлов на веб-серверах с помощью Total HTML Converter X

Конвертация HTML-файлов и живых URL на веб-серверах с помощью Total HTML Converter X

Передача готового PDF в поток напрямую из ASP

Конвертация HTML- и MHT-файлов с помощью PHP и Total HTML Converter X

Конвертация HTML-файлов с помощью Total HTML Converter X и Ruby

Конвертация HTML-файлов с помощью Total HTML Converter X и Python

Конвертация HTML-файлов с помощью Pascal и Total HTML Converter X

Конвертация HTML-файлов на веб-серверах с помощью Total HTML Converter X

Конвертация HTML-файлов с помощью Total HTML Converter X и Perl

Начните работать сейчас!

Coolutils.com

Последние новости

Подписка на рассылку новостей