0

我正在尝试将 pdf 转换为文本文件。我使用这个命令来执行转换:

gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=output.txt input.pdf

Ghostscript 版本是 9.07。

我得到了 PDF 中显示的所有文本。如果可能,我想保留文本文件中的空白行。

谢谢

4

1 回答 1

1

你应该升级一下,目前 Ghostscript 的版本是 9.18,9.19 很快就会发布。每个临时版本都包含对 txtwrite 设备的修复。

虽然 PDF 文件确实不包含空行,但 txtwrite 设备确实有一种模式,它会尝试通过在文本文件中使用空格和空行来生成原始布局的合理表示。

这是当前版本的 txtwrite 中的默认操作,因此您应该已经获得此操作,除非您选择了不同的 TextFormat。

这种模式是高度启发式的,容易被愚弄,不能很好地处理上标、下标、显着的点大小变化以及可能使布局难以重现的其他属性。显然,没有看到您的输入文件,我无法告诉您更多信息。

于 2016-03-21T08:04:30.390 回答