pdf - 当我使用 pdfminer 将 pdf 文件翻译成文本时出现奇怪的字符

问问题 2020-08-11T20:39:27.250

69 次

我使用pdfminer翻译了一个 pdf 文件，我意识到在几种情况下我发现了一个奇怪的非 ascii'ﬁ'替换 'fi'。

纠正这个问题的一个简单方法似乎是

 content=re.sub('ﬁ','fi',content)

但是，我只能纠正这个问题，因为我注意到了它，值得一提的是，很难注意到它。我只注意到，因为我正在用乳胶写一份报告，说明我的代码由于 Spacy 提供给“强化”（使用此字符）的分类不正确而导致的错误。此刻，我意识到 dvi 文件（latex laguage 的输出）失败了。当我检查它时，我意识到这两个字符“fi”被其他东西取代了。

这似乎可能是一种 pdf 字体问题。

在任何 nlp 活动之前，我是否可以预测并自动解决这样的问题列表？或者也许是一种使用 Spacy 来检查给定单词是否未知的方法（我相信这个带有奇怪替换的“强化”这个词对于 spacy 是未知的）？或者还没有在翻译文本中寻找非 ascii 字符？

这些解决方案中的哪一个有效？

pdf - 当我使用 pdfminer 将 pdf 文件翻译成文本时出现奇怪的字符

0 回答 0

Related

Reference