nlp - 可以训练 NLTK 来检测句子中的“编造”名称吗？

Question

我最近开始研究使用 NLTK 进行数据提取。虽然有几个示例和技术可以检测“真实”名称、位置等。但我还没有找到一种有效的方法来检测“虚构”或“虚构”名称。一个示例字符串是：

他的名字叫 wuzzywugg，他有一只名叫 fizzbuzz 的狗

我想训练 NLTK 能够检测到“wuzzywugg”和“fizzbuzz”是字符的名称。看到一些依赖以大写字母开头的单词的解决方案，但这感觉非常“hacky”并且容易出错和误报。

任何有关如何解决此问题的帮助将不胜感激。提前致谢。

score 0 · Accepted Answer

我在处理俄罗斯民间故事时遇到了同样的问题，结果发现他们的大多数名字都没有出现在西方的地名词典中。一种快速的方法可能是使用词性标签并仅获取 NNP（专有名词）。检查这个：http ://www.nltk.org/book/ch05.html

这对我来说并不完全奏效，我的方法涉及实际提取所有名词短语（解析树中的 NP 节点），然后提取我自己注释的特征向量以构建 ML 分类器。您可以在此处找到更多信息：http: //ieeexplore.ieee.org/document/7489041/

1 回答 1