Logo
Strona główna Produkty Wsparcie Kontakt O nas
arrow1 File Converters
arrow1 TIFF and PDF apps
arrow1 Forensic
arrow1 Freeware


Konwersja Word do tekstu z wiersza poleceń — wsadowy konwerter serwerowy

Masz foldery z plikami DOC i DOCX i potrzebujesz czytelnego ciała tekstu, a nie formatowania — do indeksowania pełnotekstowego, zasilania wyszukiwarek, potoków NLP i uczenia maszynowego, recenzji eDiscovery lub długoterminowej archiwizacji. Otwieranie każdego pliku w Wordzie i zapisywanie jako zwykły tekst nie skaluje się powyżej kilku plików i pozostawia artefakty formatowania Worda. Total Doc Converter X usuwa formatowanie Word i zapisuje czysty tekst UTF-8 lub ANSI z wiersza poleceń, wsadowo, bez GUI i bez wymogu instalacji Microsoft Word. Zainstaluj go na serwerze Windows, wywołaj ze skryptu lub przez ActiveX i pozwól mu działać bez nadzoru.

Co potrafi Total Doc Converter X

  • Konwersja wsadowa — podaj maskę (*.docx), a konwerter przetworzy każdy pasujący plik w jednym przebiegu
  • Czyste wyjście tekstowe — usuwa czcionki, kolory, style akapitowe, nagłówki i stopki, pozostawiając tylko czytelne ciało tekstu
  • Kontrola kodowania — zapisuj UTF-8, UTF-16, ANSI lub dowolną stronę kodową Windows, aby dopasować do potoku po stronie odbioru
  • Obsługa BOM — dołączaj lub pomiń znacznik kolejności bajtów UTF-8, aby dopasować do wymagań indekserów wyszukiwania i parserów
  • Treść wielojęzyczna — zachowuje cyrylicę, CJK, arabski, hebrajski i każde pismo Unicode zawarte w źródłowym DOC/DOCX
  • Bez Worda — konwerter parsuje DOC i DOCX bezpośrednio bez Microsoft Office na serwerze
  • Brak GUI — działa cicho z wiersza poleceń bez wyskakujących okien i dialogów potwierdzenia
  • ActiveX / COM — wywołuj konwerter z .NET, VBScript, PHP, Python lub dowolnego środowiska zgodnego z COM, aby osadzić konwersję we własnej aplikacji
  • Skrypty .bat — zapisz polecenia w plikach wsadowych i zaplanuj je za pomocą Harmonogramu zadań systemu Windows do pełnej automatyzacji konwersji

Konwersja Word do tekstu z wiersza poleceń

Pobierz wersję próbną

(30 dni, bez e-maila)

Kup licencję

(licencja serwerowa, wieczysta)

Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022

Word a Text: dlaczego warto konwertować?

DOC i DOCX to formaty Microsoft Word zbudowane do czytania i edycji przez ludzi. Plik DOCX to kontener ZIP z częściami XML, osadzonymi mediami, stylami, historią rewizji, komentarzami i śledzeniem zmian. Wyszukiwarka, indekser, tokenizator LLM lub potok eDiscovery nie dba o nic z tego — dba o czytelny tekst. Skierowanie tych systemów na surowe pliki Word zmusza każdego konsumenta do dostarczania własnego parsera DOC/DOCX, a parsery nie zgadzają się co do przypadków brzegowych.

TXT to najniższy wspólny mianownik. Każdy indekser wyszukiwania, każdy zestaw narzędzi NLP, każde narzędzie typu grep, każde narzędzie diff czyta zwykły tekst tak samo. Konwersja Word do TXT raz, na serwerze, daje każdemu konsumentowi po stronie odbioru to samo czyste wejście. Tabele spłaszczają się do wierszy oddzielonych tabulatorami lub podziałów wiersza. Obrazy odpadają. Nagłówki i stopki można zachować lub usunąć, w zależności od flagi. Pozostaje zawartość ciała, gotowa do indeksowania lub wyodrębniania cech.

DOC / DOCXTXT
ZawartośćTekst + formatowanie + mediaTylko tekst
Rozmiar plikuDziesiątki do setek KBZwykle 5–20% oryginału
IndeksowanieWymaga parsera DOC/DOCXDziała z dowolnym indekserem lub tokenizatorem
TabeleStrukturalne komórkiSpłaszczone do wierszy oddzielonych tabulatorami
ObrazyOsadzoneUsuwane
OdbiorcyRecenzenci, redaktorzyWyszukiwanie, NLP, archiwizacja, eDiscovery

Jak konwertować Word do tekstu z wiersza poleceń

Krok 1. Zainstaluj Total Doc Converter X

Pobierz instalator z linku powyżej i uruchom go na serwerze lub stacji roboczej Windows. Instalacja trwa mniej niż minutę. Nie wymaga instalacji Microsoft Word, LibreOffice ani przeglądarki — konwerter parsuje DOC i DOCX bezpośrednio z użyciem własnego silnika i zapisuje zwykły tekst w określonym kodowaniu.

Krok 2. Otwórz wiersz poleceń

Otwórz cmd.exe lub PowerShell. Plik wykonywalny konwertera to DOCConverter.exe, znajdujący się w folderze instalacyjnym (zwykle C:\Program Files\CoolUtils\TotalDocConverterX\). Dodaj go do systemowej zmiennej PATH lub używaj pełnej ścieżki w poleceniach.

Krok 3. Uruchom podstawową konwersję

Najprostsze polecenie konwertuje wszystkie pliki DOCX w folderze do TXT:

DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8

Przetwarza każdy plik .docx w folderze C:\Docs\ i zapisuje wynikowe pliki TXT w C:\Output\. Każdy plik Word tworzy jeden TXT o tej samej nazwie bazowej. Użyj *.doc dla starszych dokumentów Word 97–2003 lub *.do*, aby złapać oba naraz.

Krok 4. Dodaj opcje kodowania i logowania

Kontroluj wyjście TXT za pomocą dodatkowych flag:

DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log
  • -Encoding UTF-8 — kodowanie wyjścia (UTF-8, UTF-16, ANSI, 1251, 1252 itd.)
  • -BOM 0 — pomiń znacznik kolejności bajtów UTF-8; użyj -BOM 1, aby go zapisać
  • -LineBreaks CRLF — styl Windows \r\n lub LF dla stylu Unix \n
  • -log C:\Logs\word2txt.log — zapisz dziennik konwersji do weryfikacji

Krok 5. Zautomatyzuj za pomocą pliku .bat

Zapisz polecenie w pliku .bat i zaplanuj je za pomocą Harmonogramu zadań systemu Windows:

@echo off
"C:\Program Files\CoolUtils\TotalDocConverterX\DOCConverter.exe" C:\Incoming\*.docx C:\Archive\TXT\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log

Uruchamia konwersję każdej nocy (lub z dowolną częstotliwością) i zapisuje plik dziennika, dzięki czemu można zweryfikować wyniki. Połącz folder wyjściowy z indekserem wyszukiwania lub zadaniem pobierania NLP, a potok działa od początku do końca bez ręcznego kroku.

Integracja ActiveX / COM

Total Doc Converter X zawiera pełny interfejs ActiveX. Możesz wywoływać konwerter z dowolnego środowiska zgodnego z COM — .NET, VBScript, PHP, Python, Ruby lub ASP. Pozwala to osadzić konwersję Word do tekstu we własnej aplikacji webowej, platformie eDiscovery lub procesie dokumentowym bez uruchamiania osobnego procesu z wiersza poleceń.

Przykład (C#/.NET):

DOCConverterX Cnv = new DOCConverterX();
Cnv.Convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");

Przykład (PHP):

$c = new COM("DOCConverter.DOCConverterX");
$c->convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");

To samo wywołanie działa z ASP.NET, VBScript, Python, Ruby, Perl i JavaScript (Windows Script Host). Twoja aplikacja webowa może przyjmować przesyłane pliki Word i zwracać czysty tekst UTF-8 do indeksera, endpointu LLM lub warstwy magazynu w czasie rzeczywistym.

Konwertery online a Total Doc Converter X

FunkcjaKonwertery onlineTotal Doc Converter X
Przetwarzanie wsadoweJeden plik narazNieograniczona liczba plików na partię
Prywatność plikówPliki wysyłane na serwer zewnętrznyPliki nigdy nie opuszczają Twojego komputera
Kontrola kodowaniaTylko UTF-8, BOM wymuszoneUTF-8, UTF-16, ANSI, strony kodowe, BOM wł./wył.
Treść wielojęzycznaNiespójne na CJK, pismach RTLPełne Unicode zachowane
AutomatyzacjaTylko ręcznieWiersz poleceń, .bat, Harmonogram zadań, ActiveX
Wdrożenie na serwerzeNiemożliweZaprojektowany dla serwerów, bez GUI
Wymaga zainstalowanego Wordand.Nie
Wymaga internetuTakNie

Kiedy potrzebna jest konwersja Word do tekstu z wiersza poleceń

  • Indeksowanie pełnotekstowe. Korporacyjna wyszukiwarka indeksuje udział dokumentów firmy. Skierowanie jej na surowe pliki DOCX zmusza ją do dostarczenia własnego parsera; skierowanie na pliki TXT pozwala dowolnemu indekserowi (Elasticsearch, Solr, Sphinx, Manticore) czytać treść bezpośrednio. Konwerter przygotowuje korpus raz, indekser wchłania go w nieskończoność.
  • Karmienie kontraktów do LLM lub potoku ML. Tokenizatory i modele osadzeń pracują na zwykłym tekście. Nocne zadanie konwertuje nowe kontrakty do TXT i wypycha je do magazynu osadzeń, gdzie model wzbogacony pobieraniem może odpowiadać na pytania o sformułowania klauzul bez krztuszenia się XML Worda.
  • Eksploracja tekstu prawnego i eDiscovery. Zespół wsparcia procesowego potrzebuje ciała tekstowego tysięcy eksponatów DOC i DOCX do wyszukiwania słów kluczowych, klastrowania koncepcyjnego i kodowania predykcyjnego. Zwykły tekst to format wejściowy, który każde narzędzie eDiscovery rozumie tak samo.
  • Zachowanie e-maili i logów dla compliance. Outlook eksportuje ciała e-maili jako DOCX. Archiwa compliance potrzebują kopii w czystym tekście, które każdy audytor może przeczytać za dwadzieścia lat bez instalacji Worda. Konwerter usuwa opłatek Worda i przechowuje czysty TXT obok oryginału.
  • Ekstrakcja cech NLP. Ocenianie sentymentu, rozpoznawanie nazwanych bytów i modelowanie tematyczne działają na strumieniach tokenów. Konwersja źródłowego DOCX do TXT UTF-8 raz oznacza, że potok NLP nie parsuje ponownie tego samego dokumentu przy każdym przebiegu.
  • Długoterminowa archiwizacja. Formaty Word ewoluują. DOC z 2001 roku już potrzebuje warstwy zgodności. Zwykły tekst UTF-8 nadal otworzy się w dowolnym edytorze w 2050 roku. Archiwizacja czytelnego ciała obok oryginału to tania polisa.

Dlaczego Total Doc Converter X

Bez Worda

Konwerter parsuje DOC i DOCX bezpośrednio. Nie potrzebujesz Microsoft Office, LibreOffice ani żadnego edytora tekstu zainstalowanego na serwerze. Pozwala to uniknąć kosztów licencji i znanej niestabilności automatyzacji Worda w scenariuszach bez nadzoru.

Prawdziwa aplikacja serwerowa

Total Doc Converter X jest zaprojektowany do pracy bez nadzoru. Żadnych okien GUI, okien dialogowych ani monitów potwierdzenia. Działa cicho z wiersza poleceń lub jako część usługi — dokładnie tego, czego potrzebuje serwer produkcyjny.

Kodowanie pasujące do Twojego potoku

Indekserów wyszukiwania, frameworki NLP i starsze archiwa mają własne reguły kodowania. Total Doc Converter X zapisuje UTF-8 z BOM lub bez, UTF-16 LE lub BE, strony kodowe Windows ANSI 1251 i 1252 oraz dowolną inną stronę kodową zarejestrowaną w systemie. Kontrakty cyryliczą, japońskie podręczniki produktu, korespondencja arabska i niemiecka dokumentacja techniczna przeżywają konwersję w stanie nienaruszonym — konwerter czyta źródłowy DOC/DOCX jako Unicode i zapisuje wybrane kodowanie wyjściowe bez stratnej transliteracji. Ustaw -Encoding raz w pliku .bat, a wyjście pasuje do konsumentów po stronie odbioru bajt po bajcie.

Nie tylko TXT

To samo narzędzie wiersza poleceń konwertuje Word do PDF, HTML, RTF, XLS, TIFF, JPEG i wielu innych formatów. Jedna instalacja pokrywa wszystkie potrzeby konwersji Word. Zmień -c TXT na -c PDF, a otrzymasz wyjście PDF z tymi samymi funkcjami wsadowymi i automatyzacji.

Pobierz wersję próbną

(30 dni, bez e-maila i karty kredytowej)

Kup licencję

(licencja serwerowa, wieczysta)

Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022


quote

Konwerter plików DOC dla serwerów Opinie klientów 2026

Oceń
Ocenione na 4.7/5 na podstawie opinii klientów
5 Star

"Przetwarzamy kilka tysięcy eksponatów DOC i DOCX na sprawę. Total Doc Converter X działa jako nocna partia na serwerze eDiscovery i produkuje kopie tekstowe UTF-8 do wyszukiwania słów kluczowych i klastrowania koncepcyjnego. Ciało tekstu jest czyste — bez artefaktów Worda, bez szumu nagłówków/stopek, tabele spłaszczone do tabulatorów. Ustawienie -BOM 0 było tym małym szczegółem, który sprawił, że nasz indekser był zadowolony za pierwszym razem."

5 Star Caroline Whitford Litigation Support Specialist, Mid-Atlantic Law Group

"Karmimy korpusy kontraktowe do potoku osadzeń dla wyszukiwania wzbogaconego pobieraniem. Parsowanie DOCX wewnątrz potoku było powolne i kruche, a python-docx nie zgadzał się z Wordem w kwestii komórek tabeli. Wstępna konwersja do zwykłego TXT za pomocą DOCConverter.exe usunęła oba problemy. Plik .bat żyje w Harmonogramie zadań, zadanie osadzania czyta TXT, a my przestaliśmy walczyć z XML Worda."

5 Star Devansh Iyer NLP Engineer

"Compliance poprosił nas o przechowywanie kopii każdego dokumentu klinicznego w czystym tekście obok oryginałów do długoterminowej archiwizacji. Wybraliśmy Total Doc Converter X, bo nie potrzebuje Worda na serwerze plików, a flaga kodowania pozwoliła nam ujednolicić UTF-8 bez BOM w całym archiwum. Dokumentacja mogłaby być bardziej szczegółowa w kwestii reguł spłaszczania tabel, ale wsparcie odpowiedziało na nasze pytania tego samego dnia."

4 Star Margaret Holloway Records Manager, Regional Health Network

Najczęściej zadawane pytania ▼

Podstawowe polecenie to: DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8. Konwertuje każdy plik Word w folderze źródłowym do TXT. Użyj *.doc dla starszych plików Word 97–2003 lub *.do*, aby złapać zarówno DOC, jak i DOCX w jednym przebiegu.
Podaj -Encoding, a po nim docelowe kodowanie. Obsługiwane wartości to między innymi UTF-8, UTF-16, UTF-16BE, ANSI oraz dowolna strona kodowa Windows zarejestrowana w systemie (na przykład 1251 dla cyrylicy Windows lub 1252 dla zachodnioeuropejskiej). Bajty wyjścia pasują dokładnie do tego, czego oczekuje indekser lub parser po stronie odbioru.
Tak. Dodaj -BOM 0, aby zapisać czysty strumień UTF-8 bez znacznika kolejności bajtów. Użyj -BOM 1, aby emitować BOM. Niektóre indeksery wyszukiwania i parsery JSON odrzucają pliki zaczynające się od BOM, podczas gdy niektóre narzędzia natywne dla Windows go wymagają — flaga pozwala dopasować obie strony bez post-processingu.
Tak. Źródłowy DOC lub DOCX jest czytany jako Unicode, dzięki czemu cyrylica, grecki, arabski, hebrajski, chiński, japoński, koreański i pisma indyjskie wszystkie docierają do wyjścia w stanie nienaruszonym. Wybierz -Encoding UTF-8 dla pełnego pokrycia Unicode w pojedynczym strumieniu bajtów lub wybierz stronę kodową, jeśli Twój standard archiwum tego wymaga.
Tabele są spłaszczane do tekstu. Każdy wiersz staje się linią; komórki w wierszu są domyślnie oddzielone tabulatorami. Tworzy to układ podobny do TSV, który może parsować każdy arkusz, indekser lub czytnik pandas. Struktura kolumn oryginalnej tabeli jest zachowywana, o ile narzędzie po stronie odbioru rozumie wartości oddzielone tabulatorami.
Domyślnie nagłówki i stopki są dołączane raz na dokument, a nie powtarzane na każdej stronie, dzięki czemu ciało tekstu pozostaje czyste. Użyj -IncludeHeaders 0, aby je całkowicie usunąć, lub -IncludeHeaders 1, aby je zachować. Numery stron są usuwane, ponieważ TXT nie ma pojęcia stron.
Tak. Total Doc Converter X rejestruje się jako obiekt COM/ActiveX (DOCConverter.DOCConverterX). Możesz go wywoływać z .NET, PHP, Python, VBScript, ASP, Ruby, Perl i każdego innego środowiska zgodnego z COM. Twoja aplikacja webowa może przyjmować przesyłane pliki DOC/DOCX i zwracać tekst UTF-8 do indeksera lub endpointu LLM w czasie rzeczywistym.

Przykłady użycia Total Doc Converter X

Konwertuj pliki Doc za pomocą Total Doc Converter X i .NET


string src  = @"C:\test\Source.docx";
string dest = @"C:\test\Dest.pdf";

var cnv = new DocConverterX();
cnv.Convert(src, dest, "-cPDF -log c:\\test\\Doc.log");

if (!string.IsNullOrEmpty(cnv.ErrorMessage))
    throw new Exception(cnv.ErrorMessage);

Konwertuj pliki Doc na serwerach webowych za pomocą Total Doc Converter X

public static class Function1
    {
        [FunctionName("Function1")]
        public static async Task Run(
            [HttpTrigger(AuthorizationLevel.Anonymous, "get", "post", Route = null)] HttpRequest req,
            ILogger log)
        {
            StringBuilder sbLogs = new StringBuilder();
            sbLogs.AppendLine("started...");
            try
            {
                ProcessStartInfo startInfo = new ProcessStartInfo();
                startInfo.CreateNoWindow = true;
                startInfo.UseShellExecute = false;
                var assemblyDirectoryPath = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location);
                assemblyDirectoryPath = assemblyDirectoryPath.Substring(0, assemblyDirectoryPath.Length - 4);

                var executablePath = $@"{assemblyDirectoryPath}\Converter\DocConverterX.exe";
                sbLogs.AppendLine(executablePath + "...");
                var srcPath = $@"{assemblyDirectoryPath}\src\sample.docx";
                var outPath = Path.GetTempFileName() + ".pdf";
                startInfo.FileName = executablePath;

                if (File.Exists(outPath))
                {
                    File.Delete(outPath);
                }

                if (File.Exists(executablePath) && File.Exists(srcPath))
                {
                    sbLogs.AppendLine("files exists...");
                }
                else
                    sbLogs.AppendLine("EXE & source files NOT exists...");
                startInfo.WindowStyle = ProcessWindowStyle.Hidden;
                startInfo.Arguments = $"\"{srcPath}\" \"{outPath}\" -cPDF";
                using (Process exeProcess = Process.Start(startInfo))
                {
                    sbLogs.AppendLine($"wait...{DateTime.Now.ToString()}");
                    exeProcess.WaitForExit();
                    sbLogs.AppendLine($"complete...{DateTime.Now.ToString()}");
                }
                sbLogs.AppendLine("Conversion complete.");
            }
            catch (Exception ex)
            {
                sbLogs.AppendLine(ex.ToString());
            }

            return new OkObjectResult(sbLogs);
        }
    }
Więcej informacji o Azure Functions.

Konwertuj pliki Doc na serwerach webowych za pomocą Total Doc Converter X

dim C
Set C=CreateObject("DocConverter.DocConverterX")
C.Convert "c:\source.docx", "c:\dest.pdf", "-cPDF -log c:\doc.log"
Response.Write C.ErrorMessage
set C = nothing

Strumieniuj wynikowy PDF bezpośrednio z ASP

dim C
Set C=CreateObject("DocConverter.DocConverterX")
Response.Clear
Response.AddHeader "Content-Type", "binary/octet-stream"
Response.AddHeader "Content-Disposition", "attachment; filename=test.pdf"
Response.BinaryWrite C.ConvertToStream("C:\www\ASP\Source.docx", "C:\www\ASP", "-cpdf -log c:\doc.log")
set C = nothing

Konwertuj pliki Doc za pomocą PHP i Total Doc Converter X

$src="C:\\test\\test.docx";
$dest="C:\\test\\test.pdf";
if (file_exists($dest)) unlink($dest);
$c= new COM("DocConverter.DocConverterX");
$c->convert($src,$dest, "-cPDF -log c:\\test\\Doc.log");
if (file_exists($dest)) echo "OK"; else echo "fail:".$c->ErrorMessage;

Konwertuj pliki Doc za pomocą Total Doc Converter X i Ruby

require 'win32ole'
c = WIN32OLE.new('DocConverter.DocConverterX')

src = "C:\\test\\test.docx"
dest = "C:\\test\\test.pdf"

c.convert(src, dest, "-cPDF -log c:\\test\\Doc.log")

if not File.exist?(dest)
  puts c.ErrorMessage
end

Konwertuj pliki Doc za pomocą Total Doc Converter X i Python

import win32com.client
import os.path

c = win32com.client.Dispatch("DocConverter.DocConverterX")

src  = "C:\\test\\test.docx"
dest = "C:\\test\\test.pdf"

c.convert(src, dest, "-cPDF -log c:\\test\\Doc.log")

if not os.path.exists(dest):
    print(c.ErrorMessage)

Konwertuj pliki Doc za pomocą Pascala i Total Doc Converter X

uses Dialogs, Vcl.OleAuto;

var
  c: OleVariant;
begin
  c := CreateOleObject('DocConverter.DocConverterX');
  c.Convert('c:\test\source.docx', 'c:\test\dest.pdf', '-cPDF -log c:\test\Doc.log');
  if c.ErrorMessage <> '' then
    ShowMessage(c.ErrorMessage);
end;

Konwertuj pliki Doc na serwerach webowych za pomocą Total Doc Converter X

var c = new ActiveXObject("DocConverter.DocConverterX");
c.Convert("C:\\test\\source.docx", "C:\\test\\dest.pdf", "-cPDF");
if (c.ErrorMessage != "")
  alert(c.ErrorMessage)

Konwertuj pliki Doc za pomocą Total Doc Converter X i Perla

use Win32::OLE;

my $src  = "C:\\test\\test.docx";
my $dest = "C:\\test\\test.pdf";

my $c = CreateObject Win32::OLE 'DocConverter.DocConverterX';
$c->convert($src, $dest, "-cPDF -log c:\\test\\Doc.log");
print $c->ErrorMessage if -e $dest;

 

Zacznij pracować teraz!

Pobierz wersję próbną i konwertuj pliki w kilka minut.
Nie jest wymagana karta kredytowa ani e-mail.

⬇ Pobierz wersję próbną Windows 7/8/10/11 • 135 MB

Support
Konwerter plików DOC dla serwerów Preview1

Najnowsze wiadomości

Subskrybuj newsletter

Bez obaw, nie wysyłamy spamu.


© 2026. Wszelkie prawa zastrzeżone. CoolUtils File Converters

Cards