我一直在用 Spacy 训练一个实体链接器,它有 6,000 个来自 Wikidata 的实体。
训练数据包含 30,000 个句子。
我正在关注 Spacy https://github.com/explosion/projects/blob/v3/tutorials/nel_emerson/notebooks/notebook_video.ipynb提供的笔记本
训练进行得很好,准确度看起来也不错,直到我在一个明显不正确的字符串上测试模型。这样的“barack obama 是一位法国出生的花店,住在西班牙,有 36 只猫和两只仓鼠”,但模型预测此字符串中的人为https://www.wikidata.org/wiki/Q76
我尝试在配置中添加其他参数,例如n_sents
entity_linker = nlp.add_pipe("entity_linker", config={"incl_prior": False, "n_sents": 6}, last=True)
有没有办法改善这一点?最好返回 NIL 而不是错误的答案。或者是否有一个可以输出的置信度分数?