我正在寻找一种构建单词层次结构的方法。
背景:我是一名“业余”自然语言处理爱好者,现在我感兴趣的问题之一是从一组单词中确定单词语义的层次结构。
例如,如果我的集合包含其他人的“超级”表示,即
[cat, dog, monkey, animal, bird, ... ]
我有兴趣使用任何技术来提取“动物”这个词,该词对这个集合中的其他词具有最有意义和最准确的表示。
注意:它们的含义不同。猫!=狗!=猴子!=动物但猫是动物的子集,狗是动物的子集。
我知道现在你们中的很多人会告诉我使用 wordnet。好吧,我会尝试,但我实际上有兴趣做一个 WordNet 不适用的特定领域,因为:1)Wordnet 中找不到大多数单词 2)所有单词都是另一种语言;翻译是可能的,但效果有限。
另一个例子是:
[ noise reduction, focal length, flash, functionality, .. ]
所以功能包括这个集合中的所有东西。
我也尝试过爬取维基百科页面并在 td-idf 等上应用一些技术,但维基百科页面也没有真正做太多。
有人能告诉我我的研究应该朝着什么方向发展吗?(我可以使用任何东西)