1

我正在使用 Ghostscript 将可搜索的 PDF 转换为图像 PDF,以便可以使用图像工具包使用如下命令行查看它们:

gswin32 -o c:\temp\output%d.png -r300 -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -dDOINTERPOLATE -dSAFER -sDEVICE=png16m c:\temp\test.pdf

如果我添加 -dDOPDFMARKS 命令行参数,它会呈现注释标记,显示有注释但没有注释文本。

有谁知道如何让 Ghostscript 呈现注释文本?我已经在没有任何运气的情况下搜索了它的生活。

4

2 回答 2

3

这是可能的,但它会是hacky。

Ghostscript 是一个开源的 postscript 解释器。PDF 只是使用特殊预定义字典的后记文件。在 ghostscript 8.62 或更早版本中,字典作为 postscript 文本文件位于目录 /lib 中。/lib 内部是一个文件 pdf_draw.ps,用于将 PDF 呈现为您在 .png 文件中看到的内容。在 pdf_draw.ps 内部是 /drawidget 的定义,它绘制了您看到的代表注释的小符号。在他在代码中的位置,整个注释都是可用的,只是没有被使用。

一个简单的演示是just after the /drawwidget { %...在 /drawwidget 行的正下方添加如下所示的 2 行 ( ),然后使用 gswin32c 在控制台中运行 gswin32。这将导致在控制台窗口中呈现 PDF 时显示 2 行。

/drawwidget { % <scalefactor> <annot> drawwidget -
    dup   /Contents known {dup /Contents get  == } if 
    dup   /T known { dup /T get  == } if 

输出

(This is a test sticky note)
(Laurie Shufeldt)

它变得棘手的地方是定义如何处理注释,这就是它们不被显示的原因。

在这种情况下,一种方法可能是在小部件顶部放置一个脚注引用,并在页面底部放置一个脚注,其文本格式对粘性的意图有意义。

或者,便签可以是适当的图像,类似于在 acrobat 中展开时的外观,但这将覆盖便签下方的内容。

实现的难度取决于在实现中投入了多少努力。编辑pdf_draw.ps非常hacky,但又快又容易。应该可以将 hack 放入他们自己的文件中,并将它们作为命令行的一部分调用。如果将更改放入标题中,“它应该”在当前版本的 ghostscript 中工作,而不仅仅是旧版本。

预先定义允许的便签数量和脚注的固定位置将简化脚注的放置。如果便笺具有超长文本,则文本需要具有特殊格式以允许换行,其中假定没有换行符的短文本更容易编程。

也许您只是想从便笺中提取数据并将它们放入数据库中。如果是这样的话,上面的代码就接近你需要的了。

于 2013-03-09T19:55:14.130 回答
2

如果没有看到您的 PDF 文件,我无法确定,但有几个可能的原因。您的注释可能已关闭,即当您打开 PDF 文件时不显示任何内容。它可能没有外观流,Ghostscript 不会为所有注释类型制造外观流。

更新

提供的PDF 样本包含 2 个注释:第一个是“弹出”注释;第二个是文本注释。

弹出注释基本上是交互式的,因为您可以打开和关闭它们,移动它们等等。但是,Ghostscript 不支持交互式元素。所以你得到的是弹出窗口的图标,但你没有得到相关的文本注释。

目前无法使用 Ghostscript 呈现此文本。

于 2013-03-07T09:09:36.880 回答