2

我正在使用 Adob​​e Acrobat Pro 从 XML 格式的 PDF 中提取信息。Acrobat 在这方面做得特别好。我想从大约一千个文档中提取信息并使用这些信息做一些事情,所以手动使用 Acrobat 会很烦人。是否有插件可以从任何通用语言(最好是 Python)调用 Acrobat 函数(即另存为 XML)?

4

2 回答 2

1

如果您使用的是 Windows,则可以使用 DDE 命令与 Acrobat 对话。该pyWin32模块支持 DDE 调用,或者您可以使用独立绑定来试试运气。

但是您必须弄清楚发送到 Acrobat 的请求。(这里有一些随机文档,但没有提到 XML)。似乎命令会随着版本的变化而变化,(或者至少有些东西会中断),所以请留意版本。祝你好运。

于 2012-11-05T00:20:20.933 回答
1

也许你可以看看pypdf?它允许 python 引用 Adob​​e PDF。PDFminer还允许提取 pdf xml。我知道 perl 可以做到,因为我以前自己使用过,这里是对模块CAM::PDF的引用

例子:

from pyPdf import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(file("document1.pdf", "rb"))

# print the title of document1.pdf
print "title = %s" % (input1.getDocumentInfo().title)

# add page 1 from input1 to output document, unchanged
output.addPage(input1.getPage(0))

# add page 2 from input1, but rotated clockwise 90 degrees
output.addPage(input1.getPage(1).rotateClockwise(90))

# add page 3 from input1, rotated the other way:
output.addPage(input1.getPage(2).rotateCounterClockwise(90))
# alt: output.addPage(input1.getPage(2).rotateClockwise(270))

# add page 4 from input1, but first add a watermark from another pdf:
page4 = input1.getPage(3)
watermark = PdfFileReader(file("watermark.pdf", "rb"))
page4.mergePage(watermark.getPage(0))

# add page 5 from input1, but crop it to half size:
page5 = input1.getPage(4)
page5.mediaBox.upperRight = (
    page5.mediaBox.getUpperRight_x() / 2,
    page5.mediaBox.getUpperRight_y() / 2
)
output.addPage(page5)

# print how many pages input1 has:
print "document1.pdf has %s pages." % input1.getNumPages()

# finally, write "output" to document-output.pdf
outputStream = file("document-output.pdf", "wb")
output.write(outputStream)
outputStream.close()

还要看看这个问题:python and pyPdf - how to extract text from the pages so there are spaces between lines。描述 PDF 中的 XML 解析等。

于 2012-11-04T23:00:29.657 回答