我的建议是:使用 Ghostscript 命令行。因为 ImageMagick 无论如何都在后台使用 Ghostscript(对此的技术 IM 术语是:Ghostscript 是某些转换的“代表”,例如 PDF->TIFF)。
这是一个适用于多页 PDF 文件的字母大小页面的命令行:
gswin32c.exe ^
-o page_%03d.tif ^
-sDEVICE=tiffg4 ^
-r720x720 ^
-g6120x7920 ^
input.pdf
该-g...
参数使用“设备点”控制输出页面的绝对宽度+高度......(并且在 720dpi 时为 6120x7920,这恰好是字母大小)。
这些 TIFF 页面...
- ...将是黑色+白色,
- ...分辨率为 720dpi,
- ...将被 G4 压缩并且
- ...将比 IM 命令行中未压缩的 300dpi 小得多
您的 IM 参数-depth 8
不适合从后来的 OCR 的 pov 中获得良好的结果,因为它会在字母周围产生灰色阴影,这无济于事。
您的 OCR 结果现在应该比以前好得多。
如果您的 OCR 无法处理 TIFF G4 格式(我对此表示怀疑),那么您可以借助 Ghostscript 生成其他 TIFF 子格式。例如:
gswin32c.exe ^
-o page_%03d.tif ^
-sDEVICE=tiffgray ^
-r720x720 ^
-g6120x7920 ^
-sCompression=lzw ^
input.pdf
.
gswin32c.exe ^
-o page_%03d.tif ^
-sDEVICE=tiff24nc ^
-r720x720 ^
-g6120x7920 ^
-sCompression=lzw ^
input.pdf
该tiffgray
设备创建 8 位灰度输出。该tiff24nc
设备创建 8 位 RGB 颜色输出。两种类型的 TIFF 当然都会大于tiffg4
输出。