XHTML 是在网站上显示结构化文本的一种完美方式,但有时你所需要的只是字词本身。无论你是需要从大量本地文件中提取信息,还是需要从网站中获取文本,你最终都需要将 XHTML 转换为文本。

与其手动逐页高亮文本——这是一种容易出错的过程——或尝试研究如何将 XHTML 保存为文本,你不妨使用一个批量 XHTML 转换器来完成繁重的工作。
Total HTML Converter 绝对是你需要购买的唯一 HTML 转换器。它充满了顶级功能且价格极为实惠。以下是其部分高级功能的快速概览:
上述三个功能只是软件全部功能范围的一小部分。除了可以直接转换为文本外,Total HTML Converter 还支持大量其他输出格式,如 PDF、TIFF、JPEG、DOC 等等。无论你的转换目标是什么,你都可以确信你的需求会得到满足。
"我们从数千篇XHTML新闻文章中提取文本用于NLP管道。Total HTML Converter可干净地去除标签并保留阅读顺序。命令行批量模式完美适合我们的日常数据工作流。"
Paul Henderson Data Analyst, Reuters News Agency
"导出为XHTML的产品页面需要纯文本版本用于搜索索引。Total HTML Converter正确处理中文字符,每次运行可处理10000多个文件,毫无问题。"
Mei Lin Content Strategist, Alibaba Group
"发布为XHTML的学术论文需要转换为纯文本用于语料分析工具。转换器将表格结构保留为可读文本。批量模式节省了大量手动复制粘贴的时间。"
Andreas Muller Research Assistant, ETH Zurich