2

我想使用库从 PDF 中提取表单数据,最好是打包在 ubuntu 中的免费软件库。

例如,假设我有一个 HTML 表单,但我还希望用户可以提交一个填写好的 PDF 表单而不是 HTML 表单。

所以,我正在寻找的是一个库(或简单的 CLI 实用程序),它以 PDF 作为输入,并允许我按名称提取填写的字段,就像使用 HTML 一样。

我试过pdftotext,但这并没有真正保留信息,它只是将PDF呈现为文本。我尝试了 PDFminer,但它似乎根本不起作用(至少在我的测试 PDF 中)(只是得到空输出)。

如果它是一个库,我对语言不太挑剔,但 python 将是一个加号。

4

1 回答 1

2

我正在使用pdftk提取一些数据并操作 pdf,但我不确定是否可以按照您需要的方式处理填写的表格。

于 2012-04-12T08:21:16.263 回答