DOC 및 DOCX 파일이 가득 들어 있는 폴더가 있고 서식이 아닌 읽을 수 있는 텍스트 본문이 필요합니다 — 전체 텍스트 색인, 검색 엔진 수집, NLP 및 머신러닝 파이프라인, eDiscovery 검토 또는 장기 보관용. 각 파일을 Word에서 열어 일반 텍스트로 저장하는 것은 몇 개 이상의 파일에는 확장되지 않으며 Word 서식 산물이 남습니다. Total Doc Converter X는 GUI 없이, Microsoft Word 설치 없이 명령줄에서 Word 서식을 제거하고 깨끗한 UTF-8 또는 ANSI 텍스트를 일괄로 작성합니다. Windows 서버에 설치하고 스크립트나 ActiveX를 통해 호출하면 무인으로 실행됩니다.
*.docx)를 전달하면 변환기가 한 번의 실행으로 일치하는 모든 파일을 처리합니다
(30일, 이메일 불필요)
(서버 라이선스, 영구)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
DOC 및 DOCX는 사람이 읽고 편집할 수 있도록 만들어진 Microsoft Word 형식입니다. DOCX 파일은 XML 부분, 임베디드 미디어, 스타일, 수정 기록, 주석, 변경 내용 추적이 포함된 ZIP 컨테이너입니다. 검색 엔진, 색인기, LLM 토크나이저 또는 eDiscovery 파이프라인은 그 어느 것도 신경 쓰지 않습니다 — 읽을 수 있는 텍스트만 신경 씁니다. 이러한 시스템에 원시 Word 파일을 가리키면 모든 소비자가 자체 DOC/DOCX 파서를 가져와야 하며 파서는 엣지 케이스에서 의견이 다릅니다.
TXT는 가장 낮은 공통 분모입니다. 모든 검색 색인기, 모든 NLP 툴킷, 모든 grep 스타일 도구, 모든 diff 유틸리티가 일반 텍스트를 같은 방식으로 읽습니다. 서버에서 Word를 TXT로 한 번 변환하면 모든 다운스트림 소비자에게 동일한 깨끗한 입력이 제공됩니다. 테이블은 탭으로 구분된 행이나 줄 바꿈으로 평면화됩니다. 이미지는 사라집니다. 머리글과 바닥글은 플래그에 따라 유지하거나 제거할 수 있습니다. 남는 것은 색인 또는 특징 추출에 사용할 준비가 된 본문 콘텐츠입니다.
| DOC / DOCX | TXT | |
|---|---|---|
| 콘텐츠 | 텍스트 + 서식 + 미디어 | 텍스트만 |
| 파일 크기 | 수십~수백 KB | 일반적으로 원본의 5–20% |
| 색인 | DOC/DOCX 파서 필요 | 모든 색인기 또는 토크나이저와 작동 |
| 테이블 | 구조화된 셀 | 탭으로 구분된 행으로 평면화 |
| 이미지 | 임베디드 | 제거됨 |
| 대상 | 검토자, 편집자 | 검색, NLP, 보관, eDiscovery |
위의 링크에서 설치 프로그램을 다운로드하고 Windows 서버 또는 워크스테이션에서 실행합니다. 설치는 1분 이내에 완료됩니다. Microsoft Word, LibreOffice 또는 브라우저 설치는 필요하지 않습니다 — 변환기는 자체 엔진을 사용하여 DOC와 DOCX를 직접 분석하고 지정한 인코딩으로 일반 텍스트를 작성합니다.
cmd.exe 또는 PowerShell을 엽니다. 변환기 실행 파일은 설치 폴더(일반적으로 C:\Program Files\CoolUtils\TotalDocConverterX\)에 있는 DOCConverter.exe입니다. 시스템 PATH에 추가하거나 명령에서 전체 경로를 사용하십시오.
가장 간단한 명령은 폴더의 모든 DOCX 파일을 TXT로 변환합니다:
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8
이 명령은 C:\Docs\의 모든 .docx 파일을 처리하고 결과 TXT 파일을 C:\Output\에 저장합니다. 각 Word 파일은 같은 기본 이름으로 하나의 TXT를 생성합니다. 레거시 Word 97–2003 문서의 경우 *.doc을 사용하거나 둘 다 한 번에 잡으려면 *.do*를 사용하세요.
추가 플래그로 TXT 출력을 제어합니다:
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log
-Encoding UTF-8 — 출력 인코딩(UTF-8, UTF-16, ANSI, 1251, 1252 등)-BOM 0 — UTF-8 바이트 순서 표시 억제, 작성하려면 -BOM 1 사용-LineBreaks CRLF — Windows 스타일 \r\n 또는 Unix 스타일 \n의 경우 LF-log C:\Logs\word2txt.log — 확인용 변환 로그 작성명령을 .bat 파일에 저장하고 Windows 작업 스케줄러로 예약합니다:
@echo off "C:\Program Files\CoolUtils\TotalDocConverterX\DOCConverter.exe" C:\Incoming\*.docx C:\Archive\TXT\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log
이렇게 하면 매일 밤(또는 설정한 간격으로) 변환이 실행되고 결과를 확인할 수 있는 로그 파일이 기록됩니다. 출력 폴더를 검색 색인기 또는 NLP 수집 작업과 페어링하면 수동 단계 없이 파이프라인이 끝까지 실행됩니다.
Total Doc Converter X에는 완전한 ActiveX 인터페이스가 포함되어 있습니다. .NET, VBScript, PHP, Python, Ruby, ASP 등 모든 COM 호환 환경에서 변환기를 호출할 수 있습니다. 이를 통해 명령줄 프로세스를 별도로 실행하지 않고도 자체 웹 애플리케이션, eDiscovery 플랫폼 또는 문서 워크플로에 Word-to-Text 변환을 내장할 수 있습니다.
예제 (C#/.NET):
DOCConverterX Cnv = new DOCConverterX();
Cnv.Convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");
예제 (PHP):
$c = new COM("DOCConverter.DOCConverterX");
$c->convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");
동일한 호출이 ASP.NET, VBScript, Python, Ruby, Perl, JavaScript(Windows Script Host)에서도 작동합니다. 웹 애플리케이션에서 업로드된 Word 파일을 수신하고 실시간으로 색인기, LLM 엔드포인트 또는 저장 계층에 깨끗한 UTF-8 텍스트를 반환할 수 있습니다.
| 기능 | 온라인 변환기 | Total Doc Converter X |
|---|---|---|
| 일괄 처리 | 한 번에 한 파일 | 배치당 무제한 파일 |
| 파일 프라이버시 | 파일이 제3자 서버에 업로드됨 | 파일이 사용자 컴퓨터를 떠나지 않음 |
| 인코딩 제어 | UTF-8만, BOM 강제 | UTF-8, UTF-16, ANSI, 코드 페이지, BOM 켜기/끄기 |
| 다국어 콘텐츠 | CJK, RTL 스크립트에서 일관성 없음 | 전체 유니코드 보존 |
| 자동화 | 수동 전용 | 명령줄, .bat, 작업 스케줄러, ActiveX |
| 서버 배포 | 불가능 | 서버용 설계, GUI 불필요 |
| Word 설치 필요 | 해당 없음 | 아니오 |
| 인터넷 필요 | 예 | 아니오 |
변환기는 DOC와 DOCX를 직접 분석합니다. 서버에 Microsoft Office, LibreOffice 또는 워드 프로세서를 설치할 필요가 없습니다. 이를 통해 라이선스 비용과 무인 시나리오에서 Word 자동화의 잘 알려진 불안정성을 피할 수 있습니다.
Total Doc Converter X는 무인 사용을 위해 설계되었습니다. GUI 창, 대화 상자, 확인 프롬프트가 없습니다. 명령줄 또는 서비스의 일부로 조용히 실행됩니다 — 프로덕션 서버에 필요한 바로 그 방식입니다.
검색 색인기, NLP 프레임워크, 레거시 아카이브는 각각 자체 인코딩 규칙이 있습니다. Total Doc Converter X는 BOM 유무에 관계없이 UTF-8, UTF-16 LE 또는 BE, Windows ANSI 코드 페이지 1251 및 1252, 시스템에 등록된 다른 모든 코드 페이지를 작성합니다. 키릴 문자 계약, 일본어 제품 매뉴얼, 아랍어 통신, 독일어 기술 문서가 모두 변환에서 그대로 살아남습니다 — 변환기는 소스 DOC/DOCX를 유니코드로 읽고 손실이 있는 음역 없이 선택한 출력 인코딩을 작성합니다. .bat 파일에서 -Encoding을 한 번 설정하면 출력이 다운스트림 소비자와 바이트 단위로 일치합니다.
같은 명령줄 도구로 Word를 PDF, HTML, RTF, XLS, TIFF, JPEG 등으로 변환할 수 있습니다. 하나의 설치로 모든 Word 변환 요구 사항을 충족합니다. -c TXT를 -c PDF로 변경하면 동일한 일괄 처리 및 자동화 기능으로 PDF 출력을 얻을 수 있습니다.
(30일, 이메일이나 신용카드 불필요)
(서버 라이선스, 영구)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
"우리는 사건당 수천 개의 DOC와 DOCX 증거를 처리합니다. Total Doc Converter X는 eDiscovery 서버에서 야간 배치로 실행되며 키워드 검색과 개념 클러스터링을 위한 UTF-8 텍스트 사본을 생성합니다. 텍스트 본문은 깨끗합니다 — Word 산물도, 머리글/바닥글 노이즈도 없고, 테이블은 탭으로 평면화됩니다. -BOM 0 설정은 우리 색인기가 첫 시도에 만족하게 만든 작은 세부 사항이었습니다."
Caroline Whitford Litigation Support Specialist, Mid-Atlantic Law Group
"검색 증강 검색을 위해 임베딩 파이프라인에 계약 코퍼스를 공급합니다. 파이프라인 내에서 DOCX를 분석하는 것은 느리고 취약했으며, python-docx는 테이블 셀에 대해 Word와 의견이 달랐습니다. DOCConverter.exe로 일반 TXT로 미리 변환하면 두 가지 문제가 모두 제거되었습니다. .bat 파일은 작업 스케줄러에 있고, 임베딩 작업은 TXT를 읽으며, Word XML과 싸우는 것을 멈췄습니다."
Devansh Iyer NLP Engineer
"규정 준수는 장기 보관을 위해 모든 임상 문서의 일반 텍스트 사본을 원본과 함께 보관하라고 요청했습니다. 파일 서버에 Word가 필요하지 않고 인코딩 플래그를 통해 아카이브 전체에서 BOM 없는 UTF-8을 표준화할 수 있어 Total Doc Converter X를 선택했습니다. 테이블 평면화 규칙에 대한 문서가 더 자세할 수 있지만, 지원팀은 우리 질문에 같은 날 답변했습니다."
Margaret Holloway Records Manager, Regional Health Network
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8입니다. 이 명령은 소스 폴더의 모든 Word 파일을 TXT로 변환합니다. 레거시 Word 97–2003 파일의 경우 *.doc을 사용하거나, DOC와 DOCX를 한 번에 잡으려면 *.do*를 사용하세요.-Encoding 다음에 대상 인코딩을 전달합니다. 지원되는 값에는 UTF-8, UTF-16, UTF-16BE, ANSI, 시스템에 등록된 모든 Windows 코드 페이지(예: 키릴 문자 Windows의 경우 1251, 서유럽의 경우 1252)가 포함됩니다. 출력 바이트는 다운스트림 색인기 또는 파서가 기대하는 것과 정확히 일치합니다.-BOM 0을 추가하여 바이트 순서 표시가 없는 깨끗한 UTF-8 스트림을 작성합니다. BOM을 내보내려면 -BOM 1을 사용하세요. 일부 검색 색인기와 JSON 파서는 BOM으로 시작하는 파일을 거부하는 반면, 일부 Windows 네이티브 도구는 이를 요구합니다 — 플래그를 사용하면 후처리 없이 어느 쪽이든 일치시킬 수 있습니다.-Encoding UTF-8을 선택하거나, 아카이브 표준이 요구하는 경우 코드 페이지를 선택하세요.-IncludeHeaders 0을 사용하거나 유지하려면 -IncludeHeaders 1을 사용하세요. TXT에는 페이지 개념이 없으므로 페이지 번호는 제거됩니다.DOCConverter.DOCConverterX)로 등록됩니다. .NET, PHP, Python, VBScript, ASP, Ruby, Perl 및 기타 모든 COM 호환 환경에서 호출할 수 있습니다. 웹 애플리케이션은 업로드된 DOC/DOCX 파일을 수락하고 실시간으로 색인기 또는 LLM 엔드포인트에 UTF-8 텍스트를 반환할 수 있습니다.
string src="C:\\test\\Source.Doc";
string dest="C:\\test\\Dest.PDF";
DocConverterX Cnv = new DocConverterX();
Cnv.Convert(src, dest, "-c PDF -log c:\\test\\Doc.log");
MessageBox.Show("Convert complete!");
dim C
Set C=CreateObject("DocConverter.DocConverterX")
C.Convert "c:\source.DOC", "c:\dest.TIF", "-cTIF -log c:\doc.log"
Response.Write C.ErrorMessage
set C = nothing
dim C
Set C=CreateObject("DocConverter.DocConverterX")
Response.Clear
Response.AddHeader "Content-Type", "binary/octet-stream"
Rresponse.AddHeader "Content-Disposition", "attachment; filename=test.pdf"
Response.BinaryWrite c.ConvertToStream("C:\www\ASP\Source.doc", "C:\www\ASP", "-cpdf -log c:\html.log")
set C = nothing
ASP.net용으로 특정한 C# 샘플들이 더 있습니다. 다른 언어 예제가 필요하다면 연락주세요. 당신만을 위한 예제를 제작해드리겠습니다.
$src="C:\test.doc";
$dest="C:\test.htm";
if (file_exists($dest)) unlink($dest);
$c= new COM("DocConverter.DocConverterX");
$c->convert($src,$dest, "-c htm -log c:\doc.log");
if (file_exists($dest)) echo "OK"; else echo "fail:".$c->ErrorMessage;
require 'win32ole'
c = WIN32OLE.new('DocConverter.DocConverterX')
src="C:\\test\\test.docx";
dest="C:\\test\\test.pdf";
c.convert(src,dest, "-c PDF -log c:\\test\\Doc.log");
if not File.exist?(dest)
puts c.ErrorMessage
end
import win32com.client
import os.path
c = win32com.client.Dispatch("DocConverter.DocConverterX")
src="C:\\test\\test.docx";
dest="C:\\test\\test.pdf";
c.convert(src, dest, "-c PDF -log c:\\test\\Doc.log");
if not os.path.exists(file_path):
print(c.ErrorMessage)
uses Dialogs, Vcl.OleAuto;
var
c: OleVariant;
begin
c:=CreateOleObject('DocConverter.DocConverterX');
C.Convert('c:\test\source.docx', 'c:\test\dest.pdf', '-cPDF -log c:\test\Doc.log');
IF c.ErrorMessage<> Then
ShowMessage(c.ErrorMessage);
end;
var c = new ActiveXObject("DocConverter.DocConverterX");
c.Convert("C:\\test\\source.docx", "C:\\test\\dest.pdf", "-c PDF");
if (c.ErrorMessage!="")
alert(c.ErrorMessage)
use Win32::OLE; my $src="C:\\test\\test.docx"; my $dest="C:\\test\\test.pdf"; my $c = CreateObject Win32::OLE 'DocConverter.DocConverterX'; $c->convert($src,$dest, "-c pdf -log c:\\test\\Doc.log"); print $c->ErrorMessage if -e $dest;
무료 평가판을 다운로드하고 몇 분 만에 파일을 변환하세요.
신용카드나 이메일이 필요하지 않습니다.