4

我尝试使用 NLTK 在 python 中进行命名实体识别。我想提取个人技能列表。我有技能列表,想在申请中搜索它们并标记技能。我注意到 NLTK 有用于预定义标签(如 Person、Location 等)的 NER 标记。我可以使用 Python 中的外部地名词典标记器吗?知道如何比搜索术语(有时是多词术语)更复杂吗?

谢谢, 阿萨夫

4

2 回答 2

1

看看RegexpTagger和最终的RegexpParser,我认为这正是您正在寻找的。

您可以创建自己的 POS 标签,即。将技能映射到标签,然后轻松定义语法。

标记器的一些示例代码在此 pdf中。

于 2011-08-08T22:53:00.983 回答
1

我最近使用 NLTK 的次数还不够多,但是如果您有知道是技能的单词,则无需进行 NER- 只需进行文本搜索即可。

也许使用 Lucene 或其他一些搜索库来查找文本,然后对其进行注释?这是很多工作,但如果您正在处理大量数据,那可能没问题。或者,您可以组合一个正则表达式搜索,它会更慢,但可能适用于少量数据,并且更容易实现。

于 2011-07-09T22:48:14.417 回答