我最近开始研究使用 NLTK 进行数据提取。虽然有几个示例和技术可以检测“真实”名称、位置等。但我还没有找到一种有效的方法来检测“虚构”或“虚构”名称。一个示例字符串是:
他的名字叫 wuzzywugg,他有一只名叫 fizzbuzz 的狗
我想训练 NLTK 能够检测到“wuzzywugg”和“fizzbuzz”是字符的名称。看到一些依赖以大写字母开头的单词的解决方案,但这感觉非常“hacky”并且容易出错和误报。
任何有关如何解决此问题的帮助将不胜感激。提前致谢。
我最近开始研究使用 NLTK 进行数据提取。虽然有几个示例和技术可以检测“真实”名称、位置等。但我还没有找到一种有效的方法来检测“虚构”或“虚构”名称。一个示例字符串是:
他的名字叫 wuzzywugg,他有一只名叫 fizzbuzz 的狗
我想训练 NLTK 能够检测到“wuzzywugg”和“fizzbuzz”是字符的名称。看到一些依赖以大写字母开头的单词的解决方案,但这感觉非常“hacky”并且容易出错和误报。
任何有关如何解决此问题的帮助将不胜感激。提前致谢。
我在处理俄罗斯民间故事时遇到了同样的问题,结果发现他们的大多数名字都没有出现在西方的地名词典中。一种快速的方法可能是使用词性标签并仅获取 NNP(专有名词)。检查这个:http ://www.nltk.org/book/ch05.html
这对我来说并不完全奏效,我的方法涉及实际提取所有名词短语(解析树中的 NP 节点),然后提取我自己注释的特征向量以构建 ML 分类器。您可以在此处找到更多信息:http: //ieeexplore.ieee.org/document/7489041/