Elinizde DOC ve DOCX dosyaları klasörleri var ve biçimlendirmeyi değil, okunabilir metin gövdesini istiyorsunuz — tam metin dizinleme, arama motoru alımı, NLP ve makine öğrenimi boru hatları, e-keşif incelemesi veya uzun vadeli arşivleme için. Her dosyayı Word'de açıp düz metin olarak kaydetmek bir avuç dosyadan sonrasına ölçeklenmez ve geride Word biçimlendirme artıkları bırakır. Total Doc Converter X, Word biçimlendirmesini çıkarır ve komut satırından toplu olarak, GUI olmadan ve Microsoft Word kurulumu gerektirmeden temiz UTF-8 veya ANSI metin yazar. Bir Windows sunucusuna kurun, bir betikten veya ActiveX üzerinden çağırın ve gözetimsiz çalıştırın.
*.docx) geçirin ve dönüştürücü tek seferde eşleşen tüm dosyaları işler
(30 gün, e-posta gerekmez)
(sunucu lisansı, kalıcı)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
DOC ve DOCX, insan okuması ve düzenlemesi için oluşturulmuş Microsoft Word formatlarıdır. Bir DOCX dosyası, XML parçaları, gömülü medya, stiller, revizyon geçmişi, yorumlar ve izlenen değişikliklerle birlikte bir ZIP konteyneridir. Bir arama motoru, bir dizinleyici, bir LLM belirteyicisi veya bir e-keşif boru hattı bunların hiçbirini umursamaz — okunabilir metni umursar. Bu sistemleri ham Word dosyalarına yönlendirmek, her tüketicinin kendi DOC/DOCX ayrıştırıcısını sevkiyatına zorlar ve ayrıştırıcılar uç durumlarda anlaşmazlık yaşar.
TXT, en düşük ortak paydadır. Her arama dizinleyicisi, her NLP araç takımı, her grep tipi araç, her diff yardımcı programı düz metni aynı şekilde okur. Sunucuda Word'ü bir kez TXT'ye dönüştürmek, her alt tüketiciye aynı temiz girdiyi verir. Tablolar sekme ile ayrılmış satırlara veya satır sonlarına düzleşir. Görüntüler düşer. Başlıklar ve altbılıkoğu, bayrağınıza bağlı olarak korunabilir veya çıkarılabilir. Kalan, dizinleme veya özellik çıkarma için hazır gövde içeriğidir.
| DOC / DOCX | TXT | |
|---|---|---|
| Íçerik | Metin + biçimlendirme + medya | Yalnızca metin |
| Dosya boyutu | Onlarca ila yüzlerce KB | Genellikle orijinalin %5–20'si |
| Dizinleme | DOC/DOCX ayrıştırıcısı gerektirir | Herhangi bir dizinleyici veya belirteyici ile çalışır |
| Tablolar | Yapılandırılmış hücreler | Sekme ile ayrılmış satırlara düzleştirilir |
| Görüntüler | Gömülü | Kaldırılır |
| Hedef kitle | Íncelemeciler, editörler | Arama, NLP, arşivleme, e-keşif |
Yukarıdaki bağlantıdan yükleyiciyi indirin ve Windows sunucunuzda veya iş istasyonunuzda çalıştırın. Kurulum bir dakikadan kısa sürer. Microsoft Word, LibreOffice veya tarayıcı kurulumu gerekmez — dönüştürücü DOC ve DOCX'i kendi motoruyla doğrudan ayrıştırır ve belirlediğiniz kodlamada düz metin yazar.
cmd.exe veya PowerShell'i açın. Dönüştürücü yürütülebilir dosyası DOCConverter.exe olup kurulum klasöründe bulunur (genellikle C:\Program Files\CoolUtils\TotalDocConverterX\). Sistem PATH'inize ekleyin veya komutlarınızda tam yolu kullanın.
En basit komut, bir klasördeki tüm DOCX dosyalarını TXT'ye dönüştürür:
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8
Bu komut, C:\Docs\ içindeki her .docx dosyasını işler ve sonuç TXT dosyalarını C:\Output\ klasörüne kaydeder. Her Word dosyası, aynı temel ada sahip bir TXT üretir. Eski Word 97–2003 belgeleri için *.doc kullanın veya her ikisini aynı anda yakalamak için *.do* kullanın.
Ek bayraklarla TXT çıktısını kontrol edin:
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log
-Encoding UTF-8 — çıktı kodlaması (UTF-8, UTF-16, ANSI, 1251, 1252, vb.)-BOM 0 — UTF-8 bayt sırası işaretini bastırın; yazmak için -BOM 1 kullanın-LineBreaks CRLF — Windows tarzı \r\n veya Unix tarzı \n için LF-log C:\Logs\word2txt.log — doğrulama için bir dönüştürme günlüğü yazınKomutunuzu bir .bat dosyasına kaydedin ve Windows Görev Zamanlayıcısı ile zamanlama yapın:
@echo off "C:\Program Files\CoolUtils\TotalDocConverterX\DOCConverter.exe" C:\Incoming\*.docx C:\Archive\TXT\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\word2txt.log
Bu, dönüştürmeyi her gece (veya belirlediğiniz aralıkta) çalıştırır ve sonuçları doğrulayabilmeniz için bir günlük dosyası yazar. Çıktı klasörünü arama dizinleyiciniz veya NLP alım işinizle eşleştirin ve boru hattı manuel adım olmadan uçtan uca çalışır.
Total Doc Converter X tam bir ActiveX arayüzü içerir. Dönüştürücüyü herhangi bir COM uyumlu ortamdan çağırabilirsiniz — .NET, VBScript, PHP, Python, Ruby veya ASP. Bu sayede, Word'den metne dönüştürmeyi bir komut satırı işlemine yönlendirmeden kendi web uygulamanıza, e-keşif platformunuza veya belge iş akışınıza gömebilirsiniz.
Örnek (C#/.NET):
DOCConverterX Cnv = new DOCConverterX();
Cnv.Convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");
Örnek (PHP):
$c = new COM("DOCConverter.DOCConverterX");
$c->convert("C:\\Docs\\contract.docx", "C:\\Output\\contract.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\doc.log");
Aynı çağrı ASP.NET, VBScript, Python, Ruby, Perl ve JavaScript (Windows Script Host) üzerinden de çalışır. Web uygulamanız yüklenen Word dosyalarını kabul edebilir ve dizinleyiciye, LLM uç noktasına veya depolama katmanına gerçek zamanlı olarak temiz UTF-8 metni döndürebilir.
| Özellik | Çevrimiçi Dönüştürücüler | Total Doc Converter X |
|---|---|---|
| Toplu işleme | Tek seferde bir dosya | Toplu işlemde sınırsız dosya |
| Dosya gizliliği | Dosyalar üçüncü taraf sunucuya yüklenir | Dosyalar makinenizden asla çıkmaz |
| Kodlama kontrolü | Yalnızca UTF-8, BOM zorunlu | UTF-8, UTF-16, ANSI, kod sayfaları, BOM açık/kapalı |
| Çok dilli içerik | CJK, RTL yazılarda tutarsız | Tam Unicode korunur |
| Otomasyon | Yalnızca manuel | Komut satırı, .bat, Görev Zamanlayıcısı, ActiveX |
| Sunucu dağıtımı | Mümkün değil | Sunucular için tasarlanmış, GUI gerektirmez |
| Word kurulumu gerektirir | Yok | Hayır |
| Ínternet gerektirir | Evet | Hayır |
Dönüştürücü DOC ve DOCX'i doğrudan ayrıştırır. Sunucuda Microsoft Office, LibreOffice veya herhangi bir kelime işlemcisi kurulu olması gerekmez. Bu, lisans maliyetlerinden ve gözetimsiz senaryolarda Word'ü otomatikleştirmenin iyi bilinen kararlılık sorunlarından kaçınır.
Total Doc Converter X gözetimsiz kullanım için tasarlanmıştır. GUI pencereleri, iletişim kutuları, onay istemleri yoktur. Komut satırından veya bir hizmetin parçası olarak sessizce çalışır — tam olarak bir üretim sunucusunun ihtiyacı olan budur.
Arama dizinleyicileri, NLP çerçeveleri ve eski arşivler her birinin kendi kodlama kuralları vardır. Total Doc Converter X, BOM'lu veya BOM'suz UTF-8, UTF-16 LE veya BE, Windows ANSI kod sayfaları 1251 ve 1252 ve sistemde kayıtlı diğer kod sayfalarını yazar. Kiril sözleşmeleri, Japon ürün kılavuzları, Arapça yazışma ve Almanca teknik belgeler dönüştürmeyi sağlam şekilde atlar — dönüştürücü kaynağı DOC/DOCX olarak Unicode okur ve kayıplı transliterasyon olmadan seçilen çıktı kodlamasını yazar. .bat dosyanızda -Encoding'i bir kez ayarlayın ve çıktı, alt tüketicilerle bayt bayt eşleşir.
Aynı komut satırı aracı, Word'ü PDF, HTML, RTF, XLS, TIFF, JPEG ve daha fazlasına dönüştürür. Tek kurulumla tüm Word dönüştürme ihtiyaçlarınız karşılanır. -c TXT yerine -c PDF yazın ve aynı toplu işleme ve otomasyon özellikleriyle PDF çıktısı alın.
(30 gün, e-posta veya kredi kartı gerekmez)
(sunucu lisansı, kalıcı)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
"Konu başına birkaç bin DOC ve DOCX kanıtını işliyoruz. Total Doc Converter X, e-keşif sunucusunda gecelik bir toplu iş olarak çalışır ve anahtar kelime araması ile kavram kümelemesi için UTF-8 metin kopyaları üretir. Metin gövdesi temizdir — Word artıkları yok, başlık/altbılıkoğu gürültüsü yok, sekmelere düzleştirilmiş tablolar var. -BOM 0'ı ayarlamak, dizinleyicimizi ilk denemede mutlu eden küçük ayrıntıydı."
Caroline Whitford Litigation Support Specialist, Mid-Atlantic Law Group
"Sözleşme corpuslarını alım destekli arama için gömme boru hattına besliyoruz. Boru hattı içinde DOCX'i ayrıştırmak yavaş ve kırılgandı ve python-docx, tablo hücreleri konusunda Word ile anlaşmazlık yaşıyordu. DOCConverter.exe ile düz TXT'ye önceden dönüştürmek her iki sorunu da kaldırdı. .bat dosyası Görev Zamanlayıcısı'nda yaşıyor, gömme işi TXT okuyor ve Word XML ile savaşmayı bıraktık."
Devansh Iyer NLP Engineer
"Uyumluluk, uzun vadeli arşivleme için her klinik belgenin orijinallerinin yanına düz metin kopyalarını tutmamızı istedi. Total Doc Converter X'i seçtik çünkü dosya sunucusunda Word gerektirmiyor ve kodlama bayrağı, arşiv genelinde BOM'suz UTF-8'de standartlaşmamıza izin verdi. Tablo düzleştirme kuralları konusunda belgeler daha ayrıntılı olabilirdi, ancak destek sorularımızı aynı gün yanıtladı."
Margaret Holloway Records Manager, Regional Health Network
DOCConverter.exe C:\Docs\*.docx C:\Output\ -c TXT -Encoding UTF-8. Bu, kaynak klasördeki tüm Word dosyalarını TXT'ye dönüştürür. Eski Word 97–2003 dosyaları için *.doc kullanın veya tek çalıştırmada hem DOC hem de DOCX'i yakalamak için *.do* kullanın.-Encoding'i ve ardından hedef kodlamayı geçin. Desteklenen değerler arasında UTF-8, UTF-16, UTF-16BE, ANSI ve sistemde kayıtlı herhangi bir Windows kod sayfası (örneğin Kiril Windows için 1251 veya Batı Avrupa için 1252) bulunur. Çıktı baytları, alt dizinleyicinin veya ayrıştırıcının beklediği ile tam olarak eşleşir.-BOM 0 ekleyin. BOM yaymak için -BOM 1 kullanın. Bazı arama dizinleyicileri ve JSON ayrıştırıcıları, BOM ile başlayan dosyaları reddederken, bazı Windows yerli araçları bunu gerektirir — bayrak, son işleme olmadan her iki tarafla da eşleşmenizi sağlar.-Encoding UTF-8 seçin veya arşiv standardınız gerektiriyorsa bir kod sayfası seçin.-IncludeHeaders 0 kullanın veya tutmak için -IncludeHeaders 1 kullanın. TXT'nin sayfa kavramı olmadığı için sayfa numaraları çıkarılır.DOCConverter.DOCConverterX) olarak kayıt olur. Onu .NET, PHP, Python, VBScript, ASP, Ruby, Perl ve diğer tüm COM uyumlu ortamlardan çağırabilirsiniz. Web uygulamanız, yüklenen DOC/DOCX dosyalarını kabul edebilir ve dizinleyiciye veya LLM uç noktasına gerçek zamanlı olarak UTF-8 metni döndürebilir.
string src = @"C:\test\Source.docx";
string dest = @"C:\test\Dest.pdf";
var cnv = new DocConverterX();
cnv.Convert(src, dest, "-cPDF -log c:\\test\\Doc.log");
if (!string.IsNullOrEmpty(cnv.ErrorMessage))
throw new Exception(cnv.ErrorMessage);
public static class Function1
{
[FunctionName("Function1")]
public static async Task Run(
[HttpTrigger(AuthorizationLevel.Anonymous, "get", "post", Route = null)] HttpRequest req,
ILogger log)
{
StringBuilder sbLogs = new StringBuilder();
sbLogs.AppendLine("started...");
try
{
ProcessStartInfo startInfo = new ProcessStartInfo();
startInfo.CreateNoWindow = true;
startInfo.UseShellExecute = false;
var assemblyDirectoryPath = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location);
assemblyDirectoryPath = assemblyDirectoryPath.Substring(0, assemblyDirectoryPath.Length - 4);
var executablePath = $@"{assemblyDirectoryPath}\Converter\DocConverterX.exe";
sbLogs.AppendLine(executablePath + "...");
var srcPath = $@"{assemblyDirectoryPath}\src\sample.docx";
var outPath = Path.GetTempFileName() + ".pdf";
startInfo.FileName = executablePath;
if (File.Exists(outPath))
{
File.Delete(outPath);
}
if (File.Exists(executablePath) && File.Exists(srcPath))
{
sbLogs.AppendLine("files exists...");
}
else
sbLogs.AppendLine("EXE & source files NOT exists...");
startInfo.WindowStyle = ProcessWindowStyle.Hidden;
startInfo.Arguments = $"\"{srcPath}\" \"{outPath}\" -cPDF";
using (Process exeProcess = Process.Start(startInfo))
{
sbLogs.AppendLine($"wait...{DateTime.Now.ToString()}");
exeProcess.WaitForExit();
sbLogs.AppendLine($"complete...{DateTime.Now.ToString()}");
}
sbLogs.AppendLine("Conversion complete.");
}
catch (Exception ex)
{
sbLogs.AppendLine(ex.ToString());
}
return new OkObjectResult(sbLogs);
}
}
dim C
Set C=CreateObject("DocConverter.DocConverterX")
C.Convert "c:\source.docx", "c:\dest.pdf", "-cPDF -log c:\doc.log"
Response.Write C.ErrorMessage
set C = nothing
dim C
Set C=CreateObject("DocConverter.DocConverterX")
Response.Clear
Response.AddHeader "Content-Type", "binary/octet-stream"
Response.AddHeader "Content-Disposition", "attachment; filename=test.pdf"
Response.BinaryWrite C.ConvertToStream("C:\www\ASP\Source.docx", "C:\www\ASP", "-cpdf -log c:\doc.log")
set C = nothing
$src="C:\\test\\test.docx";
$dest="C:\\test\\test.pdf";
if (file_exists($dest)) unlink($dest);
$c= new COM("DocConverter.DocConverterX");
$c->convert($src,$dest, "-cPDF -log c:\\test\\Doc.log");
if (file_exists($dest)) echo "OK"; else echo "fail:".$c->ErrorMessage;
require 'win32ole'
c = WIN32OLE.new('DocConverter.DocConverterX')
src = "C:\\test\\test.docx"
dest = "C:\\test\\test.pdf"
c.convert(src, dest, "-cPDF -log c:\\test\\Doc.log")
if not File.exist?(dest)
puts c.ErrorMessage
end
import win32com.client
import os.path
c = win32com.client.Dispatch("DocConverter.DocConverterX")
src = "C:\\test\\test.docx"
dest = "C:\\test\\test.pdf"
c.convert(src, dest, "-cPDF -log c:\\test\\Doc.log")
if not os.path.exists(dest):
print(c.ErrorMessage)
uses Dialogs, Vcl.OleAuto;
var
c: OleVariant;
begin
c := CreateOleObject('DocConverter.DocConverterX');
c.Convert('c:\test\source.docx', 'c:\test\dest.pdf', '-cPDF -log c:\test\Doc.log');
if c.ErrorMessage <> '' then
ShowMessage(c.ErrorMessage);
end;
var c = new ActiveXObject("DocConverter.DocConverterX");
c.Convert("C:\\test\\source.docx", "C:\\test\\dest.pdf", "-cPDF");
if (c.ErrorMessage != "")
alert(c.ErrorMessage)
use Win32::OLE; my $src = "C:\\test\\test.docx"; my $dest = "C:\\test\\test.pdf"; my $c = CreateObject Win32::OLE 'DocConverter.DocConverterX'; $c->convert($src, $dest, "-cPDF -log c:\\test\\Doc.log"); print $c->ErrorMessage if -e $dest;
Ücretsiz deneme sürümünü indirin ve dosyalarınızı dakikalar içinde dönüştürün.
Kredi kartı veya email gerekli değil.

İlgili Konular
Toplu Olarak Komut Satırıyla DOCX'i PDF'ye Dönüştür