HTM 또는 HTML 파일이 가득 들어 있는 폴더가 있습니다 — 스크랩된 페이지, 아카이브된 게시판, 내보낸 도움말 파일, 인트라넷 스냅샷 — 그리고 마크업 없이 읽을 수 있는 텍스트가 필요한 다운스트림 파이프라인이 있습니다. 검색 색인기는 <div> 노이즈를 원하지 않습니다. NLP 토크나이저는 인라인 스크립트에 막힙니다. 법무 검토는 CSS가 아닌 산문을 원합니다. Total HTML Converter X는 GUI 없이, 브라우저 엔진 없이 명령줄에서 HTM 마크업을 제거하고 깨끗한 유니코드 텍스트를 일괄로 작성합니다. Windows 서버에 설치하고 스크립트나 ActiveX를 통해 호출하면 색인기, 모델, 아카이브에 데이터를 공급합니다.
*.htm)를 전달하면 변환기가 한 번의 실행으로 일치하는 모든 파일을 처리합니다
(30일, 이메일 불필요)
(서버 라이선스, 영구)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
HTM(및 HTML)은 브라우저용 마크업 언어입니다. 파일은 산문을 태그, 속성, 인라인 스타일, JavaScript 및 외부 자산 참조와 혼합합니다. 원시 HTM을 삼키는 검색 색인기는 <script> 블록과 CSS 클래스 이름을 실제 콘텐츠와 함께 채점하게 됩니다. LLM 토크나이저는 노이즈에 컨텍스트를 낭비합니다. HTM 아카이브에 대한 grep은 본문 텍스트가 아닌 속성 내부의 일치를 반환합니다.
유니코드 TXT는 UTF-8 또는 UTF-16의 일반 텍스트입니다. 태그도, 마크업도, 서식도 없습니다 — 문서의 읽을 수 있는 문자만 있습니다. 모든 검색 엔진, NLP 툴킷, 로그 분석기, 아카이브 유틸리티는 전처리 없이 이를 사용합니다. 변환은 의도적으로 손실이 있습니다: 이미지, 레이아웃, 스타일이 사라집니다. 남는 것은 올바른 논리적 순서로 된 텍스트 콘텐츠이며, 원래 문자 집합이 그대로 유지됩니다.
| HTM | 유니코드 TXT | |
|---|---|---|
| 콘텐츠 | 마크업, 스크립트, 스타일, 산문 | 산문만 |
| 색인 가능 노이즈 | 높음(태그, 클래스, 스크립트) | 없음 |
| 인코딩 | <meta>에 선언, 종종 불일치 | 명시적 UTF-8 또는 UTF-16 |
| 토크나이저 준비 | 먼저 파서가 필요함 | 예, 즉시 |
| Grep / awk 친화적 | 나쁨(태그 내부 일치) | 훌륭함 |
| 대상 | 브라우저 | 검색, NLP, 분석, 아카이브 |
위의 링크에서 설치 프로그램을 다운로드하고 Windows 서버 또는 워크스테이션에서 실행합니다. 설치는 1분 이내에 완료됩니다. 브라우저, Microsoft Office, Java 런타임이 필요하지 않습니다 — 변환기는 자체 엔진으로 HTM을 분석하고 유니코드 텍스트를 직접 작성합니다.
cmd.exe 또는 PowerShell을 엽니다. 변환기 실행 파일은 설치 폴더(일반적으로 C:\Program Files\CoolUtils\TotalHTMLConverterX\)에 있는 HTMLConverter.exe입니다. 시스템 PATH에 추가하거나 명령에서 전체 경로를 사용하십시오.
가장 간단한 명령은 폴더의 모든 HTM 파일에서 마크업을 제거하고 UTF-8 텍스트를 작성합니다:
HTMLConverter.exe C:\Pages\*.htm C:\Output\ -c TXT -Encoding UTF-8
이 명령은 C:\Pages\의 모든 .htm 파일을 처리하고 결과 .txt 파일을 C:\Output\에 저장합니다. 각 HTM은 같은 기본 이름과 UTF-8의 본문 텍스트로 하나의 TXT를 생성합니다.
텍스트 소비자에 맞게 출력을 조정합니다:
HTMLConverter.exe C:\Pages\*.htm C:\Output\ -c TXT -Encoding UTF-16 -BOM 1 -log C:\Logs\htm2txt.log
-Encoding UTF-8 — 기본값, 대부분의 검색 및 NLP 파이프라인에서 작동-Encoding UTF-16 — 와이드 문자를 기대하는 레거시 Windows 도구에 유용-BOM 1 또는 -BOM 0 — 바이트 순서 표시 작성 또는 생략, 많은 색인기는 BOM 없음을 선호-log C:\Logs\htm2txt.log — 처리된 모든 파일과 분석 경고 기록명령을 .bat 파일에 저장하고 Windows 작업 스케줄러로 예약합니다:
@echo off "C:\Program Files\CoolUtils\TotalHTMLConverterX\HTMLConverter.exe" C:\Incoming\*.htm C:\Archive\TXT\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\htm2txt.log
이렇게 하면 매일 밤(또는 설정한 간격으로) 실행되며, 검색 색인기, NLP 작업 또는 grep 기반 감사가 가져올 수 있도록 UTF-8 텍스트를 아카이브 폴더에 떨어뜨립니다.
Total HTML Converter X는 완전한 ActiveX 객체로 등록됩니다. .NET, VBScript, PHP, Python, Ruby, ASP 등 모든 COM 호환 환경에서 호출할 수 있습니다. 이를 통해 명령줄 프로세스를 별도로 실행하지 않고도 자체 수집 서비스, 인트라넷 포털 또는 NLP 파이프라인에 HTM-to-Unicode-text 추출을 내장할 수 있습니다.
예제 (C#/.NET):
HTMLConverterX Cnv = new HTMLConverterX();
Cnv.Convert("C:\\Pages\\report.htm", "C:\\Output\\report.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\htm.log");
예제 (PHP):
$c = new COM("HTMLConverter.HTMLConverterX");
$c->convert("C:\\Pages\\report.htm", "C:\\Output\\report.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\htm.log");
동일한 호출이 ASP.NET, VBScript, Python, Ruby, Perl, JavaScript(Windows Script Host)에서도 작동합니다. 서비스는 HTM 업로드를 수신하고 동일한 요청에서 호출자에게 깨끗한 유니코드 텍스트를 반환할 수 있습니다.
| 기능 | 온라인 변환기 | Total HTML Converter X |
|---|---|---|
| 일괄 처리 | 한 번에 한 파일 | 배치당 무제한 파일 |
| 파일 프라이버시 | 파일이 제3자 서버에 업로드됨 | 파일이 사용자 컴퓨터를 떠나지 않음 |
| 인코딩 제어 | 일반적으로 UTF-8만 | UTF-8, UTF-16 LE/BE, BOM 토글 |
| 비라틴 문자 | 일관성 없음(CJK, 아랍어에서 모지바케) | 전체 유니코드 적용 범위, BIDI 보존 |
| 자동화 | 수동 전용 | 명령줄, .bat, 작업 스케줄러, ActiveX |
| 서버 배포 | 불가능 | 서버용 설계, GUI 불필요 |
| 처리량 | 업로드 속도에 의해 제한됨 | 로컬 I/O, 시간당 수천 개 파일 |
| 인터넷 필요 | 예 | 아니오 |
class 속성과 JavaScript 문자열 내부의 일치를 반환합니다. 추출된 TXT에 대한 grep은 실제 산문의 일치만 반환합니다 — 감사자가 원하는 답변입니다.출력은 정직한 UTF-8 또는 UTF-16입니다. 키릴 문자는 키릴 문자, CJK는 CJK, 아랍어와 히브리어는 논리적 순서로 문자를 보존합니다. 음역도, 문자 삭제도, 물음표 대체도 없습니다 — HTM에서 읽을 수 있던 것은 TXT에서도 읽을 수 있게 유지됩니다.
Total HTML Converter X는 무인 사용을 위해 만들어졌습니다. GUI 창, 대화 상자, 확인 프롬프트가 없습니다. 명령줄 또는 서비스의 일부로 조용히 실행됩니다 — 색인 작업, NLP 파이프라인 또는 아카이브 워커에 필요한 바로 그 방식입니다.
검색 엔진, NLP 툴킷, 레거시 시스템은 각각 다른 바이트 시퀀스를 기대합니다. 변환기는 인코딩과 BOM을 명령줄 플래그로 노출하므로 Elasticsearch용 BOM 없는 UTF-8, Windows 전용 도구용 BOM이 있는 UTF-16 LE, 메모장 기반 검토자용 BOM이 있는 UTF-8을 동일한 설치에서 작성할 수 있습니다.
같은 명령줄 도구로 HTM을 PDF, DOC, XLS, TIFF, JPEG, RTF 등으로 변환할 수 있습니다. 하나의 설치로 서버의 모든 HTM 추출 요구를 충족합니다. -c TXT를 -c PDF로 변경하면 동일한 일괄 처리 및 자동화 기능으로 아카이브용 PDF 출력을 얻을 수 있습니다.
(30일, 이메일이나 신용카드 불필요)
(서버 라이선스, 영구)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
"임베딩 모델이 실제 텍스트를 보기도 전에 원시 HTM 태그에 컨텍스트 토큰을 태우고 있었습니다. Total HTML Converter X는 매시간 깨끗한 UTF-8을 우리 수집 버킷에 떨어뜨립니다. 키릴 문자와 데바나가리 페이지가 그대로 살아남고, BIDI 런은 논리적 순서로 나오며, 토크나이저는 만족합니다. 마크업을 공급하는 것을 멈춘 후 동일한 코퍼스에서 perplexity가 떨어졌습니다."
Priya Krishnamurthy NLP Engineer, Conversational AI Startup
"우리 Elasticsearch 클러스터는 9개 언어에 걸쳐 230만 개의 아카이브된 HTM 게시판을 색인화합니다. 이 변환기로 일반 UTF-8을 미리 추출하면 색인 크기가 약 40% 줄어들고 구문 쿼리가 CSS 클래스 이름 대신 실제로 관련 결과를 반환했습니다. .bat과 작업 스케줄러 설정은 Server 2019 박스에서 무인으로 실행되며 6개월 동안 한 번도 실패하지 않았습니다."
Stefan Holzer Search Architect, EU Public Sector Portal
"법적 보존을 위해 고객 대면 통신의 HTM 사본을 보관합니다. 검토자는 키워드 스윕을 위해 grep 친화적인 텍스트 버전이 필요했습니다. 변환기는 우리 e-디스커버리 플랫폼이 기대하는 정확한 방식으로 BOM 없는 UTF-8을 생성하며, 로그 파일은 우리 감사 추적을 만족시킬 만큼 자세합니다. BOM 플래그에 대한 문서가 더 명확할 수 있지만, 지원팀은 우리가 물어본 같은 날 명확히 했습니다."
Margaret Whitlock Compliance Lead, Insurance Holding Group
HTMLConverter.exe C:\Pages\*.htm C:\Output\ -c TXT -Encoding UTF-8입니다. 이 명령은 모든 HTM 파일에서 마크업을 제거하고 일반 UTF-8 텍스트를 작성합니다. 출력을 제어하려면 -Encoding UTF-16, -BOM 0 또는 -log를 추가하세요.-Encoding UTF-8을, 와이드 문자를 기대하는 레거시 Windows 도구에는 -Encoding UTF-16을 사용하세요. 기본값은 BOM 없는 UTF-8이며, Elasticsearch, Solr 및 대부분의 최신 소비자에 적합합니다.-BOM 1은 모든 파일의 시작 부분에 BOM을 작성합니다(UTF-8의 경우 EF BB BF, UTF-16 LE의 경우 FF FE). -BOM 0은 이를 생략합니다. 대부분의 검색 및 NLP 도구 체인은 BOM 없음을 선호하지만, 일부 Windows 전용 뷰어와 SQL 대량 가져오기 도구는 이를 요구합니다.<script>, <style>, HTML 주석은 텍스트가 작성되기 전에 제거됩니다. 출력에는 읽을 수 있는 본문 콘텐츠만 포함됩니다 — 사람이 브라우저에서 보는 것에서 레이아웃을 뺀 것입니다. 이것이 바로 검색 색인기나 LLM 토크나이저가 원하는 것입니다.HTMLConverter.HTMLConverterX)로 등록됩니다. .NET, PHP, Python, VBScript, ASP, Ruby 또는 Perl에서 호출하세요. 서비스는 HTM 업로드를 수신하고 동일한 요청에서 명령줄 셸링 없이 유니코드 텍스트를 반환합니다.
string src="C:\\test\\Source.HTML";
string dest="C:\\test\\Dest.PDF";
HTMLConverterX Cnv = new HTMLConverterX();
Cnv.Convert(src, dest, "-c PDF -log c:\\test\\HTML.log");
MessageBox.Show("변환 완료!");
다운로드
.NET HTML 변환기 예제
ASP.net용 C# 서버 샘플
WinForms가 포함된 C#의 클라이언트 애플리케이션
dim C
Set C=CreateObject("HTMLConverter.HTMLConverterX")
C.Convert "c:\\source.HTML", "c:\\dest.JPG", "-cJPG -log c:\\html.log"
C.Convert "https://www.coolutils.com/", "c:\\URL Page.PDF", "-cPDF -log c:\\html.log"
set C = nothing
dim C
Set C=CreateObject("HTMLConverter.HTMLConverterX")
Response.Clear
Response.AddHeader "Content-Type", "binary/octet-stream"
Response.AddHeader "Content-Disposition", "attachment; filename=test.pdf"
Response.BinaryWrite
c.ConvertToStream("C:\\www\\ASP\\Source.html", "C:\\www\\ASP", "-cpdf -log c:\\html.log")
set C = nothing
예제 PHP:
$src="C:\\test\\test.html";
$dest="C:\\test\\test.pdf";
if (file_exists($dest)) unlink($dest);
$c= new COM("HTMLConverterPro.HTMLConverterX");
$c->convert($src,$dest, "-c pdf -log c:\\HTML.log");
if (file_exists($dest)) echo "OK"; else echo "실패:".$c->ErrorMessage;
require 'win32ole'
c = WIN32OLE.new('HTMLConverterPro.HTMLConverterX')
src="C:\\test\\test.html";
dest="C:\\test\\test.tiff";
c.convert(src,dest, "-c TIFF -log c:\\test\\HTML.log");
if not File.exist?(dest)
puts c.ErrorMessage
end
import win32com.client
import os.path
c = win32com.client.Dispatch("HTMLConverterPro.HTMLConverterX")
src="C:\\test\\test.eml";
dest="C:\\test\\test.tiff";
c.convert(src, dest, "-c TIFF -log c:\\test\\HTML.log");
if not os.path.exists(file_path):
print(c.ErrorMessage)
uses Dialogs, Vcl.OleAuto;
var
c: OleVariant;
begin
c:=CreateOleObject('HTMLConverterPro.HTMLConverterX');
C.Convert('c:\\test\\source.html', 'c:\\test\\dest.tiff', '-c TIFF -log c:\\test\\HTML.log');
IF c.ErrorMessage<> Then
ShowMessage(c.ErrorMessage);
end;
var c = new ActiveXObject("HTMLConverterPro.HTMLConverterX");
c.Convert("C:\\test\\source.html", "C:\\test\\dest.pdf", "-c PDF");
if (c.ErrorMessage!="")
alert(c.ErrorMessage)
use Win32::OLE; my $src="C:\\test\\test.html"; my $dest="C:\\test\\test.tiff"; my $c = CreateObject Win32::OLE 'HTMLConverterPro.HTMLConverterX'; $c->convert($src,$dest, "-c TIFF -log c:\\test\\HTML.log"); print $c->ErrorMessage if -e $dest;
무료 평가판을 다운로드하고 몇 분 만에 파일을 변환하세요.
신용카드나 이메일이 필요하지 않습니다.