2

我正在使用 Python 开发一个工具来从 PDF 文件中提取突出显示的段落。我经常在 OS X Lion 上的 Preview 中突出显示 PDF,但还没有找到提取这些段落的好工具。存在其他允许您突出显示和导出的应用程序,例如 Skim,但我认为必须有一种方法来提取我在预览中添加的应用程序。

我认为突出显示将存储在 PDF 文件的 HFS+ 扩展属性中,但在使用 xattr 查看它们之后,它们似乎存储在其他地方。我还查看了 PDFKit,但我只看到了如何创建注释而不是找到它们。

如果有人能告诉我在哪里可以找到亮点/注释或指向一些解释这一点的文档,我将不胜感激。

4

2 回答 2

2

使用 PDFKit 时,您可以从任何 PDFPage 实例中获取注释。

[myPDFPage annotations]将返回该特定页面的注释数组。

有关更多信息,请参阅文档

于 2012-05-27T02:45:53.107 回答
2

从技术上讲,突出显示 PDF 的某些部分就是在文件中添加注释。这些注释是 PDF 规范中定义的 PDF 对象。它们存储在 PDF 文件本身中,即它们确实修改了原始文件!这就是为什么在 HFS+ 扩展属性中找不到亮点的原因...

因此,标题行问题的答案是:预览将 PDF 文件中的亮点存储为完全兼容的 PDF 对象。

sosborn 很好地回答了您的文本中暗示的真正问题的答案(“我想提取突出显示的段落” )。

于 2012-05-27T11:30:13.667 回答