我使用pdfminer翻译了一个 pdf 文件,我意识到在几种情况下我发现了一个奇怪的非 ascii'fi'
替换 'fi'。
纠正这个问题的一个简单方法似乎是
content=re.sub('fi','fi',content)
但是,我只能纠正这个问题,因为我注意到了它,值得一提的是,很难注意到它。我只注意到,因为我正在用乳胶写一份报告,说明我的代码由于 Spacy 提供给“强化”(使用此字符)的分类不正确而导致的错误。此刻,我意识到 dvi 文件(latex laguage 的输出)失败了。当我检查它时,我意识到这两个字符“fi”被其他东西取代了。
这似乎可能是一种 pdf 字体问题。
在任何 nlp 活动之前,我是否可以预测并自动解决这样的问题列表?或者也许是一种使用 Spacy 来检查给定单词是否未知的方法(我相信这个带有奇怪替换的“强化”这个词对于 spacy 是未知的)?或者还没有在翻译文本中寻找非 ascii 字符?
这些解决方案中的哪一个有效?