我是 NLP 新手,最近一直在玩 NTLK 和 Spacy。但是,我找不到在文章中搜索职位(例如:产品经理、首席营销官等)的方法。
例如,我有 1000 篇文章,我想获取所有具有我感兴趣的职位的文章。
另外,职位属于什么实体类型?我检查了https://spacy.io/docs/usage/entity-recognition并没有在其中看到它。我有计划添加吗?
谢谢。
我是 NLP 新手,最近一直在玩 NTLK 和 Spacy。但是,我找不到在文章中搜索职位(例如:产品经理、首席营销官等)的方法。
例如,我有 1000 篇文章,我想获取所有具有我感兴趣的职位的文章。
另外,职位属于什么实体类型?我检查了https://spacy.io/docs/usage/entity-recognition并没有在其中看到它。我有计划添加吗?
谢谢。
Spacy NER 不支持“职位”实体,正如Nathan所述。但是您可以为您的用例创建一个自定义命名实体。这是官方文档链接。你可以在那里找到训练 Spacy NER 的分步指南。
您需要标记数据来训练您的 NER。通常,您需要至少 4000-5000 个训练示例和 2000 个测试示例。您拥有的训练数据越多,NER 性能就越好。
这是一些样本训练数据。
TRAIN_DATA = [
('Who is Shaka Khan?', {
'entities': [(7, 17, 'PERSON')]
}),
('I like London and Berlin.', {
'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')]
}),
('I work as software engineer.', {
'entities': [(9, 18, 'JOBTITLE')]
}),
]
斯坦福 NER 支持 Titles(虽然并不完美)。请参阅http://corenlp.run/的演示页面