Masz foldery z plikami DOC i DOCX i potrzebujesz czytelnego ciała tekstu, a nie formatowania — do indeksowania pełnotekstowego, zasilania wyszukiwarek, potoków NLP i uczenia maszynowego, recenzji eDiscovery lub długoterminowej archiwizacji. Otwieranie każdego pliku w Wordzie i zapisywanie jako zwykły tekst nie skaluje się powyżej kilku plików i pozostawia artefakty formatowania Worda. Total Doc Converter X usuwa formatowanie Word i zapisuje czysty tekst UTF-8 lub ANSI z wiersza poleceń, wsadowo, bez GUI i bez wymogu instalacji Microsoft Word. Zainstaluj go na serwerze Windows, wywołaj ze skryptu lub przez ActiveX i pozwól mu działać bez nadzoru.
*.docx), a konwerter przetworzy każdy pasujący plik w jednym przebiegu
(30 dni, bez e-maila)
(licencja serwerowa, wieczysta)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
DOC i DOCX to formaty Microsoft Word zbudowane do czytania i edycji przez ludzi. Plik DOCX to kontener ZIP z częściami XML, osadzonymi mediami, stylami, historią rewizji, komentarzami i śledzeniem zmian. Wyszukiwarka, indekser, tokenizator LLM lub potok eDiscovery nie dba o nic z tego — dba o czytelny tekst. Skierowanie tych systemów na surowe pliki Word zmusza każdego konsumenta do dostarczania własnego parsera DOC/DOCX, a parsery nie zgadzają się co do przypadków brzegowych.
TXT to najniższy wspólny mianownik. Każdy indekser wyszukiwania, każdy zestaw narzędzi NLP, każde narzędzie typu grep, każde narzędzie diff czyta zwykły tekst tak samo. Konwersja Word do TXT raz, na serwerze, daje każdemu konsumentowi po stronie odbioru to samo czyste wejście. Tabele spłaszczają się do wierszy oddzielonych tabulatorami lub podziałów wiersza. Obrazy odpadają. Nagłówki i stopki można zachować lub usunąć, w zależności od flagi. Pozostaje zawartość ciała, gotowa do indeksowania lub wyodrębniania cech.
| DOC / DOCX | TXT | |
|---|---|---|
| Zawartość | Tekst + formatowanie + media | Tylko tekst |
| Rozmiar pliku | Dziesiątki do setek KB | Zwykle 5–20% oryginału |
| Indeksowanie | Wymaga parsera DOC/DOCX | Działa z dowolnym indekserem lub tokenizatorem |
| Tabele | Strukturalne komórki | Spłaszczone do wierszy oddzielonych tabulatorami |
| Obrazy | Osadzone | Usuwane |
| Odbiorcy | Recenzenci, redaktorzy | Wyszukiwanie, NLP, archiwizacja, eDiscovery |
Pobierz instalator z linku powyżej i uruchom go na serwerze lub stacji roboczej Windows. Instalacja trwa mniej niż minutę. Nie wymaga instalacji Microsoft Word, LibreOffice ani przeglądarki — konwerter parsuje DOC i DOCX bezpośrednio z użyciem własnego silnika i zapisuje zwykły tekst w określonym kodowaniu.
Otwórz cmd.exe lub PowerShell. Plik wykonywalny konwertera to DOCConverter.exe, znajdujący się w folderze instalacyjnym (zwykle C:\Program Files\CoolUtils\TotalDocConverterX\). Dodaj go do systemowej zmiennej PATH lub używaj pełnej ścieżki w poleceniach.
Najprostsze polecenie konwertuje wszystkie pliki DOCX w folderze do TXT:
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8
Przetwarza każdy plik .docx w folderze C:\Docs\ i zapisuje wynikowe pliki TXT w C:\Output\. Każdy plik Word tworzy jeden TXT o tej samej nazwie bazowej. Użyj *.doc dla starszych dokumentów Word 97–2003 lub *.do*, aby złapać oba naraz.
Kontroluj wyjście TXT za pomocą dodatkowych flag:
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log
-Encoding UTF-8 — kodowanie wyjścia (UTF-8, UTF-16, ANSI, 1251, 1252 itd.)-BOM 0 — pomiń znacznik kolejności bajtów UTF-8; użyj -BOM 1, aby go zapisać-LineBreaks CRLF — styl Windows \r\n lub LF dla stylu Unix \n-log C:\Logs\word2txt.log — zapisz dziennik konwersji do weryfikacjiZapisz polecenie w pliku .bat i zaplanuj je za pomocą Harmonogramu zadań systemu Windows:
@echo off "C:\Program Files\CoolUtils\TotalDocConverterX\DOCConverter.exe" C:\Incoming\*.docx C:\Archive\TXT\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log
Uruchamia konwersję każdej nocy (lub z dowolną częstotliwością) i zapisuje plik dziennika, dzięki czemu można zweryfikować wyniki. Połącz folder wyjściowy z indekserem wyszukiwania lub zadaniem pobierania NLP, a potok działa od początku do końca bez ręcznego kroku.
Total Doc Converter X zawiera pełny interfejs ActiveX. Możesz wywoływać konwerter z dowolnego środowiska zgodnego z COM — .NET, VBScript, PHP, Python, Ruby lub ASP. Pozwala to osadzić konwersję Word do tekstu we własnej aplikacji webowej, platformie eDiscovery lub procesie dokumentowym bez uruchamiania osobnego procesu z wiersza poleceń.
Przykład (C#/.NET):
DOCConverterX Cnv = new DOCConverterX();
Cnv.Convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");
Przykład (PHP):
$c = new COM("DOCConverter.DOCConverterX");
$c->convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");
To samo wywołanie działa z ASP.NET, VBScript, Python, Ruby, Perl i JavaScript (Windows Script Host). Twoja aplikacja webowa może przyjmować przesyłane pliki Word i zwracać czysty tekst UTF-8 do indeksera, endpointu LLM lub warstwy magazynu w czasie rzeczywistym.
| Funkcja | Konwertery online | Total Doc Converter X |
|---|---|---|
| Przetwarzanie wsadowe | Jeden plik naraz | Nieograniczona liczba plików na partię |
| Prywatność plików | Pliki wysyłane na serwer zewnętrzny | Pliki nigdy nie opuszczają Twojego komputera |
| Kontrola kodowania | Tylko UTF-8, BOM wymuszone | UTF-8, UTF-16, ANSI, strony kodowe, BOM wł./wył. |
| Treść wielojęzyczna | Niespójne na CJK, pismach RTL | Pełne Unicode zachowane |
| Automatyzacja | Tylko ręcznie | Wiersz poleceń, .bat, Harmonogram zadań, ActiveX |
| Wdrożenie na serwerze | Niemożliwe | Zaprojektowany dla serwerów, bez GUI |
| Wymaga zainstalowanego Worda | nd. | Nie |
| Wymaga internetu | Tak | Nie |
Konwerter parsuje DOC i DOCX bezpośrednio. Nie potrzebujesz Microsoft Office, LibreOffice ani żadnego edytora tekstu zainstalowanego na serwerze. Pozwala to uniknąć kosztów licencji i znanej niestabilności automatyzacji Worda w scenariuszach bez nadzoru.
Total Doc Converter X jest zaprojektowany do pracy bez nadzoru. Żadnych okien GUI, okien dialogowych ani monitów potwierdzenia. Działa cicho z wiersza poleceń lub jako część usługi — dokładnie tego, czego potrzebuje serwer produkcyjny.
Indekserów wyszukiwania, frameworki NLP i starsze archiwa mają własne reguły kodowania. Total Doc Converter X zapisuje UTF-8 z BOM lub bez, UTF-16 LE lub BE, strony kodowe Windows ANSI 1251 i 1252 oraz dowolną inną stronę kodową zarejestrowaną w systemie. Kontrakty cyryliczą, japońskie podręczniki produktu, korespondencja arabska i niemiecka dokumentacja techniczna przeżywają konwersję w stanie nienaruszonym — konwerter czyta źródłowy DOC/DOCX jako Unicode i zapisuje wybrane kodowanie wyjściowe bez stratnej transliteracji. Ustaw -Encoding raz w pliku .bat, a wyjście pasuje do konsumentów po stronie odbioru bajt po bajcie.
To samo narzędzie wiersza poleceń konwertuje Word do PDF, HTML, RTF, XLS, TIFF, JPEG i wielu innych formatów. Jedna instalacja pokrywa wszystkie potrzeby konwersji Word. Zmień -c TXT na -c PDF, a otrzymasz wyjście PDF z tymi samymi funkcjami wsadowymi i automatyzacji.
(30 dni, bez e-maila i karty kredytowej)
(licencja serwerowa, wieczysta)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
"Przetwarzamy kilka tysięcy eksponatów DOC i DOCX na sprawę. Total Doc Converter X działa jako nocna partia na serwerze eDiscovery i produkuje kopie tekstowe UTF-8 do wyszukiwania słów kluczowych i klastrowania koncepcyjnego. Ciało tekstu jest czyste — bez artefaktów Worda, bez szumu nagłówków/stopek, tabele spłaszczone do tabulatorów. Ustawienie -BOM 0 było tym małym szczegółem, który sprawił, że nasz indekser był zadowolony za pierwszym razem."
Caroline Whitford Litigation Support Specialist, Mid-Atlantic Law Group
"Karmimy korpusy kontraktowe do potoku osadzeń dla wyszukiwania wzbogaconego pobieraniem. Parsowanie DOCX wewnątrz potoku było powolne i kruche, a python-docx nie zgadzał się z Wordem w kwestii komórek tabeli. Wstępna konwersja do zwykłego TXT za pomocą DOCConverter.exe usunęła oba problemy. Plik .bat żyje w Harmonogramie zadań, zadanie osadzania czyta TXT, a my przestaliśmy walczyć z XML Worda."
Devansh Iyer NLP Engineer
"Compliance poprosił nas o przechowywanie kopii każdego dokumentu klinicznego w czystym tekście obok oryginałów do długoterminowej archiwizacji. Wybraliśmy Total Doc Converter X, bo nie potrzebuje Worda na serwerze plików, a flaga kodowania pozwoliła nam ujednolicić UTF-8 bez BOM w całym archiwum. Dokumentacja mogłaby być bardziej szczegółowa w kwestii reguł spłaszczania tabel, ale wsparcie odpowiedziało na nasze pytania tego samego dnia."
Margaret Holloway Records Manager, Regional Health Network
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8. Konwertuje każdy plik Word w folderze źródłowym do TXT. Użyj *.doc dla starszych plików Word 97–2003 lub *.do*, aby złapać zarówno DOC, jak i DOCX w jednym przebiegu.-Encoding, a po nim docelowe kodowanie. Obsługiwane wartości to między innymi UTF-8, UTF-16, UTF-16BE, ANSI oraz dowolna strona kodowa Windows zarejestrowana w systemie (na przykład 1251 dla cyrylicy Windows lub 1252 dla zachodnioeuropejskiej). Bajty wyjścia pasują dokładnie do tego, czego oczekuje indekser lub parser po stronie odbioru.-BOM 0, aby zapisać czysty strumień UTF-8 bez znacznika kolejności bajtów. Użyj -BOM 1, aby emitować BOM. Niektóre indeksery wyszukiwania i parsery JSON odrzucają pliki zaczynające się od BOM, podczas gdy niektóre narzędzia natywne dla Windows go wymagają — flaga pozwala dopasować obie strony bez post-processingu.-Encoding UTF-8 dla pełnego pokrycia Unicode w pojedynczym strumieniu bajtów lub wybierz stronę kodową, jeśli Twój standard archiwum tego wymaga.-IncludeHeaders 0, aby je całkowicie usunąć, lub -IncludeHeaders 1, aby je zachować. Numery stron są usuwane, ponieważ TXT nie ma pojęcia stron.DOCConverter.DOCConverterX). Możesz go wywoływać z .NET, PHP, Python, VBScript, ASP, Ruby, Perl i każdego innego środowiska zgodnego z COM. Twoja aplikacja webowa może przyjmować przesyłane pliki DOC/DOCX i zwracać tekst UTF-8 do indeksera lub endpointu LLM w czasie rzeczywistym.
string src = @"C:\test\Source.docx";
string dest = @"C:\test\Dest.pdf";
var cnv = new DocConverterX();
cnv.Convert(src, dest, "-cPDF -log c:\\test\\Doc.log");
if (!string.IsNullOrEmpty(cnv.ErrorMessage))
throw new Exception(cnv.ErrorMessage);
public static class Function1
{
[FunctionName("Function1")]
public static async Task Run(
[HttpTrigger(AuthorizationLevel.Anonymous, "get", "post", Route = null)] HttpRequest req,
ILogger log)
{
StringBuilder sbLogs = new StringBuilder();
sbLogs.AppendLine("started...");
try
{
ProcessStartInfo startInfo = new ProcessStartInfo();
startInfo.CreateNoWindow = true;
startInfo.UseShellExecute = false;
var assemblyDirectoryPath = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location);
assemblyDirectoryPath = assemblyDirectoryPath.Substring(0, assemblyDirectoryPath.Length - 4);
var executablePath = $@"{assemblyDirectoryPath}\Converter\DocConverterX.exe";
sbLogs.AppendLine(executablePath + "...");
var srcPath = $@"{assemblyDirectoryPath}\src\sample.docx";
var outPath = Path.GetTempFileName() + ".pdf";
startInfo.FileName = executablePath;
if (File.Exists(outPath))
{
File.Delete(outPath);
}
if (File.Exists(executablePath) && File.Exists(srcPath))
{
sbLogs.AppendLine("files exists...");
}
else
sbLogs.AppendLine("EXE & source files NOT exists...");
startInfo.WindowStyle = ProcessWindowStyle.Hidden;
startInfo.Arguments = $"\"{srcPath}\" \"{outPath}\" -cPDF";
using (Process exeProcess = Process.Start(startInfo))
{
sbLogs.AppendLine($"wait...{DateTime.Now.ToString()}");
exeProcess.WaitForExit();
sbLogs.AppendLine($"complete...{DateTime.Now.ToString()}");
}
sbLogs.AppendLine("Conversion complete.");
}
catch (Exception ex)
{
sbLogs.AppendLine(ex.ToString());
}
return new OkObjectResult(sbLogs);
}
}
dim C
Set C=CreateObject("DocConverter.DocConverterX")
C.Convert "c:\source.docx", "c:\dest.pdf", "-cPDF -log c:\doc.log"
Response.Write C.ErrorMessage
set C = nothing
dim C
Set C=CreateObject("DocConverter.DocConverterX")
Response.Clear
Response.AddHeader "Content-Type", "binary/octet-stream"
Response.AddHeader "Content-Disposition", "attachment; filename=test.pdf"
Response.BinaryWrite C.ConvertToStream("C:\www\ASP\Source.docx", "C:\www\ASP", "-cpdf -log c:\doc.log")
set C = nothing
$src="C:\\test\\test.docx";
$dest="C:\\test\\test.pdf";
if (file_exists($dest)) unlink($dest);
$c= new COM("DocConverter.DocConverterX");
$c->convert($src,$dest, "-cPDF -log c:\\test\\Doc.log");
if (file_exists($dest)) echo "OK"; else echo "fail:".$c->ErrorMessage;
require 'win32ole'
c = WIN32OLE.new('DocConverter.DocConverterX')
src = "C:\\test\\test.docx"
dest = "C:\\test\\test.pdf"
c.convert(src, dest, "-cPDF -log c:\\test\\Doc.log")
if not File.exist?(dest)
puts c.ErrorMessage
end
import win32com.client
import os.path
c = win32com.client.Dispatch("DocConverter.DocConverterX")
src = "C:\\test\\test.docx"
dest = "C:\\test\\test.pdf"
c.convert(src, dest, "-cPDF -log c:\\test\\Doc.log")
if not os.path.exists(dest):
print(c.ErrorMessage)
uses Dialogs, Vcl.OleAuto;
var
c: OleVariant;
begin
c := CreateOleObject('DocConverter.DocConverterX');
c.Convert('c:\test\source.docx', 'c:\test\dest.pdf', '-cPDF -log c:\test\Doc.log');
if c.ErrorMessage <> '' then
ShowMessage(c.ErrorMessage);
end;
var c = new ActiveXObject("DocConverter.DocConverterX");
c.Convert("C:\\test\\source.docx", "C:\\test\\dest.pdf", "-cPDF");
if (c.ErrorMessage != "")
alert(c.ErrorMessage)
use Win32::OLE; my $src = "C:\\test\\test.docx"; my $dest = "C:\\test\\test.pdf"; my $c = CreateObject Win32::OLE 'DocConverter.DocConverterX'; $c->convert($src, $dest, "-cPDF -log c:\\test\\Doc.log"); print $c->ErrorMessage if -e $dest;
Pobierz wersję próbną i konwertuj pliki w kilka minut.
Nie jest wymagana karta kredytowa ani e-mail.

Powiązane tematy
Konwersja DOCX do PDF za pomocą wiersza poleceń w trybie wsadowym