1

如何从包含它的 pdf 文件中提取该流的一部分(名为 BLABLABLA 的流)?

<</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0  /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>/Font<</TT0 559 0 R/TT1 560 0 R/TT2 561 0 R/TT3 562 0 R>>/ProcSet[/PDF/Text/ImageC]/Properties<</MC0<</BLABLABLA 584 0 R>>/MC1<</SubKey 582 0 R>>>>/XObject<</Im0 578 0 R>>>>/Rotate 0/StructParents 0/Type/Page>>

或者,在其他世界中,我如何从 pdf 流中提取子键?

我想使用一些 python 的库(如 pyPdf 或 ReportLab),但即使是一些 C/C++ 库也应该适合我。

谁能帮我?

4

1 回答 1

1

IIUC,PDF 中的流只是二进制数据序列。我认为您想要提取对象的一部分。您是否想要一个标准对象,例如图像或文本?如果有一个真实的例子,给你示例代码会容易得多。

这可能会帮助您入门:

import pyPdf
pdf = pyPdf.PdfFileReader(open("pdffile.pdf"))
list(pdf.pages) # Process all the objects.
print pdf.resolvedObjects
于 2009-01-11T22:06:59.113 回答