4

我正在寻找一种构建单词层次结构的方法。

背景:我是一名“业余”自然语言处理爱好者,现在我感兴趣的问题之一是从一组单词中确定单词语义的层次结构。

例如,如果我的集合包含其他人的“超级”表示,即

[cat, dog, monkey, animal, bird, ... ]

我有兴趣使用任何技术来提取“动物”这个词,该词对这个集合中的其他词具有最有意义和最准确的表示。

注意:它们的含义不同。猫!=狗!=猴子!=动物但猫是动物的子集,狗是动物的子集。

我知道现在你们中的很多人会告诉我使用 wordnet。好吧,我会尝试,但我实际上有兴趣做一个 WordNet 不适用的特定领域,因为:1)Wordnet 中找不到大多数单词 2)所有单词都是另一种语言;翻译是可能的,但效果有限。

另一个例子是:

[ noise reduction, focal length, flash, functionality, .. ]

所以功能包括这个集合中的所有东西。

我也尝试过爬取维基百科页面并在 td-idf 等上应用一些技术,但维基百科页面也没有真正做太多。

有人能告诉我我的研究应该朝着什么方向发展吗?(我可以使用任何东西)

4

2 回答 2

5

看起来您想在 WordNet 中使用上位词/下位词关系之类的东西,但由于语言和特定领域的覆盖问题而没有实际使用 WordNet?也就是说,如果您具有特定于域的上位词关系,则可以通过查找包含列表中所有单词的最近父节点或等于列表单词之一的最近节点来获得“超级”表示并包含所有其他人。

首先,我首先要指出 WordNets 实际上可用于世界上许多主要语言,请参阅Global WordNet上的列表。

要获得特定领域的上位词关系,您可以使用 Snow 等人的Learning syntactic patterns for automatic hypernym discovery中介绍的技术。也就是说,您可以从一小部分种子上位词开始,然后使用它们来训练分类器以检测语料库中的上位词。然后,您将对域中的数据运行此分类器,以构建域特定上位词对的列表。

于 2010-03-24T18:14:28.383 回答
1

意见挖掘和情感分析人员可能正在做相关的事情,在决定什么词代表产品的特征方面,而不知道任何关于产品的事情。

一个关于如何做到这一点的快速草图,我完全是当场编造的:解析相关领域中的一堆句子;找到名词短语和形容词。找出哪些名词短语与哪些形容词相关联。根据用于描述它们的形容词集合将名词短语聚集在一起动物会倾向于在一起,因为它们将被形容词描述,如“毛茸茸”或“可爱”等。(特别是,层次聚类可能是最合适的。)

如果你尝试这个,并且它有效,请告诉我。:)

于 2010-03-24T17:37:42.763 回答