Elinizde klasörler dolusu HTM veya HTML dosyası var — kazınmış sayfalar, arşivlenmiş bültenler, dışa aktarılan yardım dosyaları, intranet anlık görüntüleri — ve okunabilir metni işaretleme olmadan isteyen bir alt boru hattı. Arama dizinleyicileri <div> gürültüsü istemez. NLP belirteyicileri satır içi betiklerle boğulur. Hukuki inceleme, CSS'i değil, düzyazıyı ister. Total HTML Converter X, HTM işaretlemesini çıkarır ve komut satırından toplu olarak, GUI olmadan ve tarayıcı motoru olmadan temiz Unicode metin yazar. Bir Windows sunucusuna kurun, bir betikten veya ActiveX üzerinden çağırın ve dizinleyicinizi, modelinizi veya arşivinizi besleyin.
*.htm) geçirin ve dönüştürücü tek seferde eşleşen tüm dosyaları gezer
(30 gün, e-posta gerekmez)
(sunucu lisansı, kalıcı)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
HTM (ve HTML) tarayıcılar için tasarlanmış bir işaretleme dilidir. Dosya, düzyazıyı etiketler, öznitelikler, satır içi stiller, JavaScript ve harici varlıklara yapılan referanslarla karıştırır. Ham HTM'yi sindiren bir arama dizinleyicisi, gerçek içeriğin yanı sıra <script> bloklarını ve CSS sınıf adlarını da puanlayarak biter. Bir LLM belirteyicisi bağlamı gürültüye harcar. Bir HTM arşivi üzerinde grep, özniteliklerin içindeki eşleşmeleri döndürür, gövde metnini değil.
Unicode TXT, UTF-8 veya UTF-16'da düz metindir. Etiket yok, işaretleme yok, biçimlendirme yok — sadece belgenin okunabilir karakterleri. Her arama motoru, NLP araç takımı, günlük analizörü ve arşiv yardımcı programı bunu ön işleme yapmadan tüketir. Dönüştürme tasarım gereği kayıplıdır: görüntüler, düzen ve stiller kaybolur. Kalan, doğru mantıksal sırada ve orijinal karakter kümesi sağlam şekilde metin içeriğidir.
| HTM | Unicode TXT | |
|---|---|---|
| Íçerik | Íşaretleme, betikler, stiller, düzyazı | Yalnızca düzyazı |
| Dizinlenebilir gürültü | Yüksek (etiketler, sınıflar, betikler) | Yok |
| Kodlama | <meta> içinde bildirilir, sıkça tutarsız | Açık UTF-8 veya UTF-16 |
| Belirteç hazırlığı | Önce ayrıştırıcı gerekir | Evet, hemen |
| Grep / awk dostu | Kötü (etiketler içinde eşleşir) | Mükemmel |
| Hedef kitle | Tarayıcılar | Arama, NLP, analitik, arşivler |
Yukarıdaki bağlantıdan yükleyiciyi indirin ve Windows sunucunuzda veya iş istasyonunuzda çalıştırın. Kurulum bir dakikadan kısa sürer. Tarayıcı, Microsoft Office veya Java çalışma zamanı gerekmez — dönüştürücü HTM'yi kendi motoruyla ayrıştırır ve Unicode metni doğrudan yazar.
cmd.exe veya PowerShell'i açın. Dönüştürücü yürütülebilir dosyası HTMLConverter.exe olup kurulum klasöründe bulunur (genellikle C:\Program Files\CoolUtils\TotalHTMLConverterX\). Sistem PATH'inize ekleyin veya komutlarınızda tam yolu kullanın.
En basit komut, bir klasördeki her HTM dosyasından işaretlemeyi çıkarır ve UTF-8 metni yazar:
HTMLConverter.exe C:\Pages\*.htm C:\Output\ -c TXT -Encoding UTF-8
Bu komut, C:\Pages\ içindeki her .htm dosyasını işler ve sonuç .txt dosyalarını C:\Output\ klasörüne kaydeder. Her HTM, aynı temel ada ve UTF-8'de gövde metnine sahip bir TXT üretir.
Metnin tüketicisi için çıktıyı ayarlayın:
HTMLConverter.exe C:\Pages\*.htm C:\Output\ -c TXT -Encoding UTF-16 -BOM 1 -log C:\Logs\htm2txt.log
-Encoding UTF-8 — varsayılan; çoğu arama ve NLP boru hattı için çalışır-Encoding UTF-16 — geniş karakterler bekleyen eski Windows araçları için kullanışlıdır-BOM 1 veya -BOM 0 — bayt sırası işaretini yazar veya atlar; çoğu dizinleyici BOM'suz tercih eder-log C:\Logs\htm2txt.log — işlenen her dosyayı ve tüm ayrıştırma uyarılarını kaydedinKomutunuzu bir .bat dosyasına kaydedin ve Windows Görev Zamanlayıcısı ile zamanlama yapın:
@echo off "C:\Program Files\CoolUtils\TotalHTMLConverterX\HTMLConverter.exe" C:\Incoming\*.htm C:\Archive\TXT\ -c TXT -Encoding UTF-8 -BOM 0 -log C:\Logs\htm2txt.log
Bu, gece (veya belirlediğiniz aralıkta) çalışır ve arama dizinleyicisinin, NLP işinin veya grep tabanlı denetimin alabilmesi için arşiv klasörüne UTF-8 metin bırakır.
Total HTML Converter X tam bir ActiveX nesnesi olarak kayıt olur. Onu herhangi bir COM uyumlu ortamdan çağırabilirsiniz — .NET, VBScript, PHP, Python, Ruby veya ASP. Bu sayede, HTM'den Unicode metne çıkarmayı bir komut satırı işlemine yönlendirmeden kendi alım hizmetinize, intranet portalınıza veya NLP boru hattınıza gömebilirsiniz.
Örnek (C#/.NET):
HTMLConverterX Cnv = new HTMLConverterX();
Cnv.Convert("C:\\Pages\\report.htm", "C:\\Output\\report.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\htm.log");
Örnek (PHP):
$c = new COM("HTMLConverter.HTMLConverterX");
$c->convert("C:\\Pages\\report.htm", "C:\\Output\\report.txt", "-c TXT -Encoding UTF-8 -BOM 0 -log c:\\Logs\\htm.log");
Aynı çağrı ASP.NET, VBScript, Python, Ruby, Perl ve JavaScript (Windows Script Host) üzerinden de çalışır. Hizmetiniz bir HTM yüklemesini kabul edebilir ve aynı istekte arayana temiz Unicode metni döndürebilir.
| Özellik | Çevrimiçi Dönüştürücüler | Total HTML Converter X |
|---|---|---|
| Toplu işleme | Tek seferde bir dosya | Toplu işlemde sınırsız dosya |
| Dosya gizliliği | Dosyalar üçüncü taraf sunucuya yüklenir | Dosyalar makinenizden asla çıkmaz |
| Kodlama kontrolü | Genellikle yalnızca UTF-8 | UTF-8, UTF-16 LE/BE, BOM geçişi |
| Latin olmayan yazılar | Tutarsız (CJK, Arapça'da mojibake) | Tam Unicode kapsamı, BIDI korunur |
| Otomasyon | Yalnızca manuel | Komut satırı, .bat, Görev Zamanlayıcısı, ActiveX |
| Sunucu dağıtımı | Mümkün değil | Sunucular için tasarlanmış, GUI gerektirmez |
| Verim | Yükleme hızıyla sınırlıdır | Yerel I/O, saatte binlerce dosya |
| Ínternet gerektirir | Evet | Hayır |
class öznitelikleri ve JavaScript dizeleri içindeki eşleşmeleri döndürür. Çıkarılan TXT'yi greplemek yalnızca gerçek düzyazıdaki eşleşmeleri döndürür — denetçinin istediği yanıt.Çıktı, dürüst UTF-8 veya UTF-16'dır. Kiril, Kiril olarak kalır, CJK, CJK olarak kalır, Arapça ve Íbranice karakterlerini mantıksal sırada korur. Transliterasyon yok, karakter bırakma yok, soru işareti ikamesi yok — HTM'de okunabilir olan, TXT'de okunabilir kalır.
Total HTML Converter X gözetimsiz kullanım için tasarlanmıştır. GUI pencereleri, iletişim kutuları, onay istemleri yoktur. Komut satırından veya bir hizmetin parçası olarak sessizce çalışır — bir dizinleme işinin, NLP boru hattının veya arşiv çalışanının tam ihtiyacı budur.
Arama motorları, NLP araç takımları ve eski sistemler her biri farklı bayt dizileri bekler. Dönüştürücü, kodlama ve BOM'u komut satırı bayrakları olarak ortaya çıkarır, böylece Elasticsearch için BOM'suz UTF-8, yalnızca Windows aracı için BOM'lu UTF-16 LE ve Notepad tabanlı bir incelemeci için BOM'lu UTF-8 yazarsınız — aynı kurulumdan.
Aynı komut satırı aracı, HTM'yi PDF, DOC, XLS, TIFF, JPEG, RTF ve daha fazlasına dönüştürür. Tek kurulum sunucudaki tüm HTM çıkarma ihtiyaçlarını kapsar. -c TXT yerine -c PDF yazın ve aynı toplu işleme ve otomasyon özellikleriyle arşivsel PDF çıktısı alın.
(30 gün, e-posta veya kredi kartı gerekmez)
(sunucu lisansı, kalıcı)
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
"Gömme modelimiz gerçek metni görmeden önce ham HTM etiketlerinde bağlam belirteçleri yakıyorduk. Total HTML Converter X her saat alım kovamıza temiz UTF-8 bırakıyor. Kiril ve Devanagari sayfaları sağlam kalıyor, BIDI çalışmaları mantıksal sırada çıkıyor ve belirteyicimiz mutlu. Íşaretlemeyi beslemeyi bıraktığımızda aynı corpus üzerindeki perplexity düştü."
Priya Krishnamurthy NLP Engineer, Conversational AI Startup
"Elasticsearch kümemüz dokuz dilde 2,3 milyon arşivlenmiş HTM bültenini dizinler. Bu dönüştürücü ile düz UTF-8'i önceden çıkarmak, dizin boyutunu yaklaşık yüzde kırk azalttı ve öbek sorguların CSS sınıf adları yerine gerçekten alakalı sonuçlar döndürmesini sağladı. .bat ve Görev Zamanlayıcısı kurulumu, Server 2019 makinesinde gözetimsiz çalışıyor ve altı ayda bir kez başarısız olmadı."
Stefan Holzer Search Architect, EU Public Sector Portal
"Müşteriye yönelik iletişimlerin HTM kopyalarını hukuki saklama için tutuyoruz. Íncelemeciler anahtar kelime taramaları için grep dostu metin sürümlerine ihtiyacı vardı. Dönüştürücü, e-keşif platformumuzun beklediği şekilde tam BOM'suz UTF-8 üretir ve günlük dosyası denetim izimizi karşılayacak kadar ayrıntılıdır. BOM bayrağı hakkındaki belgeler daha net olabilirdi, ancak destek sorduğumuz gün açıkladı."
Margaret Whitlock Compliance Lead, Insurance Holding Group
HTMLConverter.exe C:\Pages\*.htm C:\Output\ -c TXT -Encoding UTF-8. Bu, her HTM dosyasından işaretlemeyi çıkarır ve düz UTF-8 metni yazar. Çıktıyı kontrol etmek için -Encoding UTF-16, -BOM 0 veya -log ekleyin.-Encoding UTF-8, geniş karakterler bekleyen eski Windows araçları için -Encoding UTF-16 kullanın. Varsayılan, Elasticsearch, Solr ve çoğu modern tüketiciye uyan BOM'suz UTF-8'dir.-BOM 1, her dosyanın başına BOM yazar (UTF-8 için EF BB BF, UTF-16 LE için FF FE). -BOM 0 bunu atlar. Çoğu arama ve NLP araç zinciri BOM'suz tercih eder; bazı yalnızca Windows görüntüleyiciler ve SQL toplu içe aktarma araçları bunu gerektirir.<script>, <style> ve HTML yorumları metin yazılmadan önce çıkarılır. Çıktı yalnızca okunabilir gövde içeriğini içerir — bir insanın tarayıcıda göreceği, eksi düzen. Bu tam olarak bir arama dizinleyicisinin veya LLM belirteyicisinin istediği şeydir.HTMLConverter.HTMLConverterX) olarak kayıt olur. Onu .NET, PHP, Python, VBScript, ASP, Ruby veya Perl'den çağırın. Hizmetiniz bir HTM yüklemesini kabul eder ve aynı istekte komut satırı kabuğuna gerek kalmadan Unicode metni döndürür.
string src = @"C:\test\Source.html";
string dest = @"C:\test\Dest.pdf";
var cnv = new HTMLConverterX();
cnv.Convert(src, dest, "-cPDF -log c:\\test\\HTML.log");
if (!string.IsNullOrEmpty(cnv.ErrorMessage))
throw new Exception(cnv.ErrorMessage);
public static class Function1
{
[FunctionName("Function1")]
public static async Task Run(
[HttpTrigger(AuthorizationLevel.Anonymous, "get", "post", Route = null)] HttpRequest req,
ILogger log)
{
StringBuilder sbLogs = new StringBuilder();
sbLogs.AppendLine("started...");
try
{
ProcessStartInfo startInfo = new ProcessStartInfo();
startInfo.CreateNoWindow = true;
startInfo.UseShellExecute = false;
var assemblyDirectoryPath = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location);
assemblyDirectoryPath = assemblyDirectoryPath.Substring(0, assemblyDirectoryPath.Length - 4);
var executablePath = $@"{assemblyDirectoryPath}\Converter\HTMLConverterX.exe";
sbLogs.AppendLine(executablePath + "...");
var srcPath = $@"{assemblyDirectoryPath}\src\sample.html";
var outPath = Path.GetTempFileName() + ".pdf";
startInfo.FileName = executablePath;
if (File.Exists(outPath))
{
File.Delete(outPath);
}
if (File.Exists(executablePath) && File.Exists(srcPath))
{
sbLogs.AppendLine("files exists...");
}
else
sbLogs.AppendLine("EXE & source files NOT exists...");
startInfo.WindowStyle = ProcessWindowStyle.Hidden;
startInfo.Arguments = $"\"{srcPath}\" \"{outPath}\" -cPDF";
using (Process exeProcess = Process.Start(startInfo))
{
sbLogs.AppendLine($"wait...{DateTime.Now.ToString()}");
exeProcess.WaitForExit();
sbLogs.AppendLine($"complete...{DateTime.Now.ToString()}");
}
sbLogs.AppendLine("Conversion complete.");
}
catch (Exception ex)
{
sbLogs.AppendLine(ex.ToString());
}
return new OkObjectResult(sbLogs);
}
}
dim C
Set C=CreateObject("HTMLConverter.HTMLConverterX")
C.Convert "c:\source.html", "c:\dest.jpg", "-cJPG -log c:\html.log"
C.Convert "https://www.coolutils.com/", "c:\URL Page.pdf", "-cPDF -log c:\html.log"
Response.Write C.ErrorMessage
set C = nothing
dim C
Set C=CreateObject("HTMLConverter.HTMLConverterX")
Response.Clear
Response.AddHeader "Content-Type", "binary/octet-stream"
Response.AddHeader "Content-Disposition", "attachment; filename=test.pdf"
Response.BinaryWrite C.ConvertToStream("C:\www\ASP\Source.html", "C:\www\ASP", "-cpdf -log c:\html.log")
set C = nothing
$src="C:\\test\\test.html";
$dest="C:\\test\\test.pdf";
if (file_exists($dest)) unlink($dest);
$c= new COM("HTMLConverter.HTMLConverterX");
$c->convert($src,$dest, "-cPDF -log c:\\HTML.log");
if (file_exists($dest)) echo "OK"; else echo "fail:".$c->ErrorMessage;
require 'win32ole'
c = WIN32OLE.new('HTMLConverter.HTMLConverterX')
src = "C:\\test\\test.html"
dest = "C:\\test\\test.pdf"
c.convert(src, dest, "-cPDF -log c:\\test\\HTML.log")
if not File.exist?(dest)
puts c.ErrorMessage
end
import win32com.client
import os.path
c = win32com.client.Dispatch("HTMLConverter.HTMLConverterX")
src = "C:\\test\\test.html"
dest = "C:\\test\\test.pdf"
c.convert(src, dest, "-cPDF -log c:\\test\\HTML.log")
if not os.path.exists(dest):
print(c.ErrorMessage)
uses Dialogs, Vcl.OleAuto;
var
c: OleVariant;
begin
c := CreateOleObject('HTMLConverter.HTMLConverterX');
c.Convert('c:\test\source.html', 'c:\test\dest.pdf', '-cPDF -log c:\test\HTML.log');
if c.ErrorMessage <> '' then
ShowMessage(c.ErrorMessage);
end;
var c = new ActiveXObject("HTMLConverter.HTMLConverterX");
c.Convert("C:\\test\\source.html", "C:\\test\\dest.pdf", "-cPDF");
if (c.ErrorMessage != "")
alert(c.ErrorMessage)
use Win32::OLE; my $src = "C:\\test\\test.html"; my $dest = "C:\\test\\test.pdf"; my $c = CreateObject Win32::OLE 'HTMLConverter.HTMLConverterX'; $c->convert($src, $dest, "-cPDF -log c:\\test\\HTML.log"); print $c->ErrorMessage if -e $dest;
Ücretsiz deneme sürümünü indirin ve dosyalarınızı dakikalar içinde dönüştürün.
Kredi kartı veya email gerekli değil.

İlgili Konular
Komut Satırından HTML'yi PDF'ye Dönüştürme — Sunucu Toplu Dönüştürücü