我的程序使用聚类来生成相似项目的子集,然后使用余弦相似度度量作为确定聚类相似程度的方法。例如,如果用户 1 有 3 个集群,用户 2 有 3 个集群,则每个集群相互比较,将产生 9 个使用余弦相似度度量的结果,例如 [0.3, 0.1, 0.4, 0.12, 0.0, 0.6, 0.8, 1.0, 0.22]
我的问题是,基于这些结果,我如何将这些值转化为有形的结果,以显示这两个用户的相似程度?
我制作的一个简单方法是将所有值除以比较次数,然后将它们加在一起得到 1 个值,但这是一种非常简单的方法。
谢谢,
作为
我试图实现的基本描述是,是否有可能从社交书签网络服务 Delicious.com 中确定两个用户的书签和标签有多相似。
到目前为止,我已经根据用户书签的标签和每个标签的共现创建了集群,例如一个集群可以是:
fruit: (apple, 15), (orange, 9), (kiwi, 2)
另一个用户可能有一个从他们的标签产生的类似集群:
fruit: (apple, 12), (strawberry, 7), (orange, 3)
该数字表示标签在保存的书签中与此示例中的标签“水果”共同出现的次数。
我已经使用余弦相似度度量来比较这些集群以确定它们的相似程度,并且从我最初的问题来看,有许多集群比较结果(将每个用户集群与另一个用户集群进行比较)我不确定如何聚合结果以产生有意义的结果。
很有可能我一直不正确地使用余弦相似度,