我最近开始了解这个名为 word2vec 的工具。对于我目前的工作,我需要找出与给定用户相似的用户。单个用户具有与其相关联的实体,例如年龄、资格、机构/组织、已知语言和某些标签列表。如果我们将这些实体/列中的每一个一起视为用户的随机词块,我们是否可以相应地计算该用户的向量值并使用这些值来推断用户之间的相似性?wiki 训练向量会帮助我们获得有意义的结果吗?还有其他方法吗?
问问题
1074 次
1 回答
4
您需要的是一个简单的无监督(或半监督)聚类算法。带有预训练向量的 word2vec 可能不是很有帮助,因为机构等不太可能在其中。
此外,似乎用户的“方面”数量很少,因此您可以简单地在向量表示上使用聚类算法,其中向量空间的每个维度都是这些方面之一(年龄、资格、组织等) .
如果您希望用户的相似性反映这些方面的相似性(而不是完全相等),那么像 word2vec 这样的连续空间模型会很有帮助。
例如,如果您希望将“Python 专家”资格衡量为接近“脚本专家”,那么选择 word2vec。但是,如果您要在有限的预定义数量的方面中寻找精确匹配,请使用简单的聚类算法。
PS 关于这个主题的更详细的问答应该在Cross Validated上。
于 2015-05-07T16:34:25.417 回答