4

我正在尝试使用不同的 NLP 功能进行一些 KNN 学习。例如,我想使用词袋和本地 POS 标签。

另外,我对如何计算单个特征的相似度有一些想法。就像使用计数的余弦相似度(对于词袋向量),或者可能使用汉明距离作为 POS 标签。

但是,我不知道如何将两者结合起来。该地区的人通常如何做到这一点?有人可以帮我吗?

提前致谢。

4

1 回答 1

2

我会使用这两个特征的简单线性组合。因此,您使用余弦相似度和 POS 标签的汉明距离单独比较词袋向量,然后取两个结果的平均值。因此,如果余弦比较和汉明距离得出以下排名:

rank score    cosine    Hamming
-------------------------------
1             red       blue
2             blue      yellow
3             yellow    orange
4             orange    red

然后最终排名(给定排名分数,您当然可以更改为,例如,如果您想更加强调排名较高的标签,则为指数规模)将如下(分数越低越好):

label    total score
--------------------
blue     3
red      5
yellow   5
orange   7

所以输出标签是blue. 在这种情况下,线性组合将 50% 的权重放在余弦相似度输出上,将 50% 的权重放在汉明距离输出上。您可以使用不同的权重(例如,70% 余弦、30% 汉明)执行测试,以找到两种测量之间的最佳平衡。

于 2012-08-17T11:25:04.410 回答