python - 使用 Enchant 进行拼写检查时忽略某些单词

Question

我正在使用 Python Enchant 对一些文件进行拼写检查，并希望它忽略专有名词。它纠正拼写错误的专有名词和错误地“纠正”它不知道的名词之间的权衡似乎太大（尽管对此的任何建议也很受欢迎！）

这是我的代码，但目前它仍在更正 NNP 列表中的单词。

chkr = SpellChecker("en_GB")

f = open('test_file.txt', 'r', encoding = 'utf-8')
text = f.read()
tagged = pos_tag(word_tokenize(text))
NNP = [(word) for word, tag in tagged if tag == 'NNP']
chkr.set_text(text)
for err in chkr:
    if err is word in NNP:
        err.ignore_always()
else:
    sug = err.suggest()[0]
    err.replace(sug)

corrected = chkr.get_text()
print (NNP)
print (corrected)

例如，在输出中，'Boojum' 更改为 Boomer，即使它在 NNP 列表中。

有人能指出我正确的方向吗？我对 Python 还很陌生。提前致谢。

score 1 · Accepted Answer

我想通了。必须告诉它错误词是刺，以便它可以将它们与 NNP 列表中的词进行比较。新代码：

chkr = SpellChecker("en_GB")

for file in os.listdir(path):       
        f = open(file, 'r', encoding = 'utf-8')
        text = f.read()
        tagged = pos_tag(word_tokenize(text))
        NNP = [word for word, tag in tagged if tag == 'NNP']
        chkr.set_text(text)
        for err in chkr:
            if str(err.word) in NNP:
                err.ignore_always()
            else:
                sug = chkr.suggest()
                if len(sug) is not 0:
                    err.replace(sug[0])

        corrected = chkr.get_text()

也更正了，如果 Enchant 没有任何建议，它将保留错误。

python - 使用 Enchant 进行拼写检查时忽略某些单词

1 回答 1

Related

Reference