我的表中有大约 5000 个术语,我想将它们分组到有意义的类别中。
例如,一些术语是:
日产
福特
被捕
吉普车
法庭
结果应该是 Nissan、Ford、Jeep 归为一类,而 Arrested 和 Court 归为另一类。我查看了斯坦福分类器 NLP。我是否正确地认为这是选择为我做这件事的正确人?
我的表中有大约 5000 个术语,我想将它们分组到有意义的类别中。
例如,一些术语是:
日产
福特
被捕
吉普车
法庭
结果应该是 Nissan、Ford、Jeep 归为一类,而 Arrested 和 Court 归为另一类。我查看了斯坦福分类器 NLP。我是否正确地认为这是选择为我做这件事的正确人?
这是一个有趣的问题,Google 发布的word2vec模型可能会有所帮助。
简而言之,一个词由模型生成的 N 维向量表示。谷歌提供了一个很棒的模型,它从一个模型中返回一个 300 维的向量,该模型在其新闻部门的超过 1000 亿个单词上进行了训练。
有趣的是,这些向量中编码了语义。假设您有单词 King、Man 和 Woman 的向量。一个简单的表达式 (King - Man) + Woman 将产生一个非常接近 Queen 的向量。
这是通过距离计算完成的(余弦距离是它们的默认值,但您可以在向量上使用自己的距离)来确定单词之间的相似性。
对于您的示例,Jeep 和 Ford 之间的距离将远小于 Jeep 和 Arrested 之间的距离。通过这个,您可以“逻辑地”对术语进行分组。