从 pdf 文件中,我成功地为 pdf 中的每一页生成了 1 个 png 图像。
问题是,无论我使用什么设置,对于某些页面,GhostScript 都会弄乱字体间距,以至于在某些 png 中,一个单词看起来像是 2 个或 3 个单词。
这是一个问题,因为我在印象笔记中使用这些文件会弄乱预期的搜索结果。因此,搜索“Providers”不会返回任何内容,因为在 png 文件中,它显示为“Pro vid er rs”(或“Users”显示为“Use rs”)。
Dropbox 链接到屏幕截图,左侧显示源 pdf 的原始文本,右侧显示生成的 png --> http://dl.dropbox.com/u/13267240/ScreenClip.png
我是 Ghostscript 的新手,不知道为什么会这样。
这是我正在使用的命令行(在 Python 中):
cmd = "gswin%sc " % (SYS_PROCESSOR_ARCH) + "-q -dNOPAUSE -dBATCH -dPDFFitPage=true -sDEVICE=png16m -r%s " % (PNG_RES) + "-sOutputFile=" + '"%s\%s -pg-%%d.%s" "%s"' % (outputdir, outputFileNamePrefix, suffix, pdfSourceFile)
或在运行时评估:
gswin64c -q -dNOPAUSE -dBATCH -dPDFFitPage=true -sDEVICE=png16m -r300X300 -sOutputFile="C:\EPTK-TMP\02-01-Introduction-pg-%d.png" "C:\EPTK-TMP\02 -01-Introduction.pdf"