0

因此,我花了一些时间尝试使用提取数据,PyPDF2但这最终在 pdf 中是不可靠的,即使 pdf 看起来(在眼睛看来)它们具有相似的结构并且可能是计算机生成的。

我喜欢 PyPDF2 的一点是它遍历 pdf 文件并从各种对象中提取文本,因此您不必处理字符之间的间距等(据我所知)extractTextPyPDF2 function

另一方面,根据文档,Camelot使用 pdfminer,据我所知,它没有执行上述操作,而是尝试根据距离规则将 pdf 的不同部分从字符组合成单词成行。我在使用 Camelot 时遇到的问题是您会得到类似“He l lo Wo rld”的结果。

不幸的是,我无法在线分享 pdf 示例

让我知道哪些其他信息将有助于分享

4

1 回答 1

0

不是一个完美的答案,但以防其他人最终来到这里。在搜索文本并匹配文本时,我发现一件事很有帮助,那就是删除所有空格。

因此,如果我正在寻找“Hello World”,但通过删除空格得到“He l lo Wo rld”,它们实际上是相同的。

这解决了我的问题

于 2021-03-14T20:03:46.940 回答