以下是对一家餐厅的(据说)有趣评论的摘录:
我想亲自和豆腐先生握手。虽然我无法在医学上证明这一点,但我 100% 确定他们的 Soondubu 含有未定义的治疗特性。不知何故,在这里用餐后我总是感觉好多了。感冒了吗?拧Nyquil,得到辣泡菜soondubu。
我想提取重要实体并将它们链接到维基百科实体。我已经在 Wikipedia/WikiData 的小样本上训练了 spaCy,并在评论中运行实体链接:
[('Tofu', 'PERSON', 'Q177378'),
('Nyquil', 'WORK_OF_ART', 'NIL')]
我也希望提取和链接其他实体,例如:
kimchi -> Kimchi
cold -> Common cold
healing -> medicine
medically -> medicine
看起来 spaCy 只能链接命名实体。我试图明确列出命名的其他实体(显然不能很好地扩展):
ruler = EntityRuler(nlp)
patterns = [{"label": "ORG", "pattern": "kimchi"}, {"label": "ORG", "pattern": "cold"}]
ruler.add_patterns(patterns)
nlp.add_pipe(ruler)
然而,spaCy 似乎根本没有链接新实体:
[ ('Tofu', 'PERSON', 'Q177378'),
('cold', 'ORG', ''),
('Nyquil', 'WORK_OF_ART', 'NIL'),
('kimchi', 'ORG', '')]
- 如何让 Spacy 也识别其他实体?
- 这应该在训练实体链接模型之前完成还是可以用已经训练好的模型完成?
- spaCy 是否适合我的任务?