我想使用库从 PDF 中提取表单数据,最好是打包在 ubuntu 中的免费软件库。
例如,假设我有一个 HTML 表单,但我还希望用户可以提交一个填写好的 PDF 表单而不是 HTML 表单。
所以,我正在寻找的是一个库(或简单的 CLI 实用程序),它以 PDF 作为输入,并允许我按名称提取填写的字段,就像使用 HTML 一样。
我试过pdftotext,但这并没有真正保留信息,它只是将PDF呈现为文本。我尝试了 PDFminer,但它似乎根本不起作用(至少在我的测试 PDF 中)(只是得到空输出)。
如果它是一个库,我对语言不太挑剔,但 python 将是一个加号。