5

我是 NLP 新手,最近一直在玩 NTLK 和 Spacy。但是,我找不到在文章中搜索职位(例如:产品经理、首席营销官等)的方法。

例如,我有 1000 篇文章,我想获取所有具有我感兴趣的职位的文章。

另外,职位属于什么实体类型?我检查了https://spacy.io/docs/usage/entity-recognition并没有在其中看到它。我有计划添加吗?

谢谢。

4

2 回答 2

8

Spacy NER 不支持“职位”实体,正如Nathan所述。但是您可以为您的用例创建一个自定义命名实体。这是官方文档链接。你可以在那里找到训练 Spacy NER 的分步指南。

您需要标记数据来训练您的 NER。通常,您需要至少 4000-5000 个训练示例和 2000 个测试示例。您拥有的训练数据越多,NER 性能就越好。

这是一些样本训练数据。

TRAIN_DATA = [
    ('Who is Shaka Khan?', {
        'entities': [(7, 17, 'PERSON')]
    }),
    ('I like London and Berlin.', {
        'entities': [(7, 13, 'LOC'), (18, 24, 'LOC')]
    }),
    ('I work as software engineer.', {
        'entities': [(9, 18, 'JOBTITLE')]
    }),

]
于 2018-01-01T10:08:43.177 回答
2

斯坦福 NER 支持 Titles(虽然并不完美)。请参阅http://corenlp.run/的演示页面

于 2018-07-12T22:59:34.287 回答