您拥有大量多页TIFF文件 — 传真、扫描的书籍、文档档案 — 而下游系统需要单页输入。在图像查看器中打开每个TIFF并逐个导出页面,处理超过两三个文件就难以应对。TIFF Paging X从命令行批量将多页TIFF拆分为单页TIFF,无需GUI,无需安装图像编辑器。将其安装在Windows服务器上,通过脚本或ActiveX调用,让其无人值守运行即可。
*.tif),拆分器即可在一次运行中处理所有多页TIFF-Pages 1-5,10-15),而非每一页{name}_p{page:000}等模式控制输出名称,生成scan_p001.tif、scan_p002.tif等
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
多页TIFF将文档的每一页打包到一个文件中。传真、扫描的书籍和归档的信函通常以这种形式出现,因为它能将相关页面保存在一起。代价是:要打开200页TIFF的第47页意味着需要解码整个堆栈以到达正确的偏移量。按文件建立索引的存储工具无法到达单个页面。分布式处理流水线必须在每个工作节点上反序列化整个文件。
单页TIFF每个文件存储一页。每一页都可以通过文件名进行寻址。文档管理系统可以将元数据、Bates编号和OCR文本附加到特定页面。工作进程可以并行拾取文件,无锁竞争。失败的转换只影响一页,而非整个批次。当多页TIFF需要进入该工作流时,必须先进行拆分。
| 多页TIFF | 单页TIFF | |
|---|---|---|
| 随机访问 | 需解码整个文件以到达某页 | 按名称直接打开文件 |
| 逐页工作流 | 困难 — 按页偏移量索引 | 简单 — 按文件名索引 |
| 单文件大小 | 大(所有页面之和) | 小(每个一页) |
| 并行处理 | 同一文件上的锁竞争 | 每个工作节点一个文件,无竞争 |
| OCR流水线 | 需要预先拆分 | 直接馈送页面 |
从上方链接下载安装程序,并在Windows服务器或工作站上运行。安装不到一分钟即可完成。无需图像编辑器、Photoshop或图像SDK — 拆分器使用自有的TIFF解析器,可处理CCITT G4、LZW、JPEG-in-TIFF、ZIP和未压缩页面。
打开cmd.exe或PowerShell。拆分器可执行文件为TIFFPaging.exe,位于安装文件夹中(通常为C:\Program Files\CoolUtils\TiffPagingX\)。将其添加到系统PATH,或在命令中使用完整路径。
最简单的命令是拆分文件夹中的所有多页TIFF:
TIFFPaging.exe C:\Scans\*.tif C:\Output\ -Split
此命令处理C:\Scans\中的每个.tif文件,并将每个源页面写为一个单页TIFF保存到C:\Output\。50页的invoice.tif会变成invoice_001.tif至invoice_050.tif。输入文件夹中的单页TIFF会被自动跳过。
使用附加标志控制输出:
TIFFPaging.exe C:\Scans\*.tif C:\Output\ -Split -NamePattern "{name}_p{page:000}" -Pages 1-5,10-15 -log C:\Logs\split.log
-NamePattern "{name}_p{page:000}" — 格式化输出名称;{name}是源基本名称,{page:000}是补零的页码-Pages 1-5,10-15 — 仅提取第1至5页和第10至15页;省略以拆分每一页-Compression Source — 保留源压缩(默认);使用CCITTG4、LZW或None进行重新压缩-log C:\Logs\split.log — 写入每文件日志以便验证将命令保存到.bat文件中,并通过Windows任务计划程序调度:
@echo off
"C:\Program Files\CoolUtils\TiffPagingX\TIFFPaging.exe" C:\Incoming\*.tif C:\Archive\Pages\ -Split -NamePattern "{name}_p{page:000}" -log C:\Logs\split.log
此脚本每晚(或按您设置的间隔)运行拆分,并写入日志文件以便您验证结果。可与一个清理步骤配合,将处理过的源文件移至归档文件夹。
TIFF Paging X包含完整的ActiveX接口。您可以从任何兼容COM的环境调用拆分器 — .NET、VBScript、PHP、Python、Ruby或ASP。这使您能够将TIFF拆分嵌入到您自己的文档管理应用、收件门户或图像工作流中,无需通过命令行进程调用。
示例(C#/.NET):
TIFFPagingX Tpx = new TIFFPagingX();
Tpx.Convert("C:\\Scans\\book.tif", "C:\\Output\\", "-Split -NamePattern \"{name}_p{page:000}\" -log c:\\Logs\\split.log");
示例(PHP):
$t = new COM("TIFFPaging.TIFFPagingX");
$t->convert("C:\\Scans\\book.tif", "C:\\Output\\", "-Split -NamePattern \"{name}_p{page:000}\" -log c:\\Logs\\split.log");
同样的调用方式适用于ASP.NET、VBScript、Python、Ruby、Perl和JavaScript(Windows Script Host)。您的收件应用可以接受上传的多页TIFF并实时向用户返回单页文件目录。
| 功能 | 在线拆分器 | TIFF Paging X |
|---|---|---|
| 批量处理 | 一次一个文件 | 每批次无限文件 |
| 文件隐私 | 文件上传至第三方服务器 | 文件不会离开您的机器 |
| 文件大小限制 | 通常限制为50–100 MB | 无限制 — 支持GB级TIFF |
| 压缩保留 | 常常重新编码为JPEG | 保留源压缩 |
| 页面范围子集 | 很少支持 | 内置-Pages标志 |
| 自动化 | 仅手动操作 | 命令行、.bat、任务计划程序、ActiveX |
| 服务器部署 | 不可能 | 专为服务器设计,无需GUI |
| 需要互联网 | 是 | 否 |
拆分器使用与源相同的压缩格式写入单页TIFF。CCITT G4传真页保持为CCITT G4。LZW压缩的扫描件保持为LZW。JPEG-in-TIFF照片保持为JPEG。无重新编码、无质量损失、无意外的文件大小增长。仅当您确实需要更改编码时才使用-Compression覆盖。
TIFF Paging X专为无人值守使用而设计。无GUI窗口、无对话框、无确认提示。它从命令行静默运行,或作为服务的一部分运行 — 正是生产收件服务器所需要的。同一二进制文件既可处理5页发票,也可处理3,000页的归档扫描件。
拆分器在处理之前会检查每个输入文件。单页TIFF被跳过,不会复制或重命名。这意味着您可以将其指向单页和多页TIFF的混合文件夹,而不会产生重复或污染输出。日志会记录哪些已拆分以及哪些被跳过。
相反的操作 — 将多个单页TIFF合并为一个多页文件 — 由TIFF Combine X处理。这两个工具共享命令行约定,因此一个在收件时拆分、在归档存储时重新合并的工作流,可在两个方向上使用一致的语法。
Windows 7/8/10/11 • Server 2008/2012/2016/2019/2022
"我们的扫描仪以单个多页TIFF的形式写入200页批次,但我们的患者记录系统每页存储一个文件,并附带病历专用元数据。TIFF Paging X作为任务计划程序作业每15分钟针对收件文件夹运行一次。CCITT G4压缩被精确保留,这一点至关重要,因为我们受保留规则约束,不允许对源页面重新编码。它替换了一个老化的内部工具,那个工具在处理超过300页的TIFF时会崩溃。"
Margarethe Voss Document Imaging Specialist, Regional Health Network
"我们以多页TIFF的形式数字化装订成册的卷宗,然后需要单页文件用于IIIF瓦片服务器。拆分器可以毫无问题地处理800页的书籍,NamePattern标志让我们能够匹配查看器后端期望的文件名。当某页需要重新扫描时,页面范围支持非常有用 — 我们只需将更正后的范围拆分覆盖现有文件即可。无GUI正是我们后端服务器所需要的。"
Daniel Okafor Archive Manager, University Special Collections
"生产集以多页TIFF形式到达,我们必须先拆分它们,然后我们的Bates盖章工具才能处理。我们将ActiveX接口集成到收件脚本中,使拆分在上传时立即发生。从COM调用很简单,拆分器在四核服务器上的速度足以实现实时响应。NamePattern的token列表的文档可以更详细一些,但支持团队在一天内回答了我们的问题。除此之外,打印机一直完全可靠。"
Patricia Lindgren Litigation Support Lead
TIFFPaging.exe C:\Scans\*.tif C:\Output\ -Split。此命令处理源文件夹中的每个多页TIFF,并为每个源页面写入一个单页TIFF。添加-NamePattern、-Pages或-log等标志以控制输出。-Pages标志,配合以逗号分隔的页码和范围。例如,-Pages 1-5,10-15,20仅提取第1至5页、第10至15页以及第20页。范围之外的页面会被跳过,因此输出文件夹只包含您所请求的页面。-NamePattern标志接受像"{name}_p{page:000}"这样的模板。{name}是源基本名称,{page}是页码,{page:000}补零至三位数。50页的invoice.tif会变成invoice_p001.tif至invoice_p050.tif。-Compression CCITTG4、-Compression LZW或-Compression None。TIFFPaging.TIFFPagingX)。您可以从.NET、PHP、Python、VBScript、ASP、Ruby、Perl以及任何其他兼容COM的环境调用它。命令行使用的相同参数语法可通过COM的Convert方法工作。.bat文件中,并将其添加到Windows任务计划程序。拆分器会在预定时间无人值守地运行,处理监视文件夹中的每个新多页TIFF,并写入日志文件以便验证。可与一个清理步骤配合,将处理过的源文件移至归档文件夹。