1

只是尝试使用 Slate 库和 PyPDF2 从 Python 中的 PDF 中提取文本。不幸的是,一些 PDF 正在输出,其中多个单词合并/连接在一起。这似乎是间歇性发生的,例如,对于某些 PDF 单词,它们之间的空格被正确提取,而另一些则不是。

包含未正确提取单词的 PDF 示例,可在此处下载(所以不允许我上传)。从输出

slate.PDF(open(name, 'rb') ).text()

是(或至少一个片段是):

,noton adhocprocures,and can be used with datacollected atmultiplespatial resolutions (Kulldorff1999).如果有关于加班税的丰富数据可用,这些数据可以合并到 STPS 分析中,以提高模型检测瞄准集群的灵敏度和可靠性,

当然第一个逗号分隔的标记应该在哪里not on adhoc procedures

有人知道为什么会发生这种情况,或者对用于 PDF 文本提取的库有更好的了解吗?

谢谢您的帮助!

4

0 回答 0