pdf - 是否可以通过 GET 请求从 PDF 文档中检索单个页面？

Question

我需要将数字存储库迁移到新平台，但无法访问旧平台，因此我不得不通过网络检索对象。

一些对象包含其他对象。对于这种类型的大多数对象，识别/检索组件及其元数据是一个简单的过程。但是对于某些 PDF 文件，所引用的组件似乎实际上是对单个文件中各个页面的引用，而不是单独的页面。

例如，http://content.wwu.edu/cdm4/document.php ?CISOROOT=/wfront&CISOPTR=2711给了我一个 4 页的对象。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=print允许我检索整个文档。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711检索一个 XML 文档，告诉我组件页面的标识符，但是当我尝试卷曲它们时，我只是得到零长度文档。但是在涉及非 PDF 文档时使用相同的方法，我会得到实际文件——这就是为什么我认为只检索单个页面的原因。

我如何检索单个页面，因为我必须将它们作为单个对象存储在新平台中？谢谢

score 0 · Accepted Answer

底线是，这似乎只有在服务器上有可以为您提取单个页面的东西时才有可能。

当我打开wireshark时，我发现用户界面上的操作正在使用以下语法调用对服务器端PDF应用程序的调用：

其中 2711 是对象的名称，3 是相关文件的页面。进一步的实验表明，我可以为我能识别的任何 PDF 提取任何页面。

对于其他有类似问题的人，wireshark 是你的朋友。

1 回答 1