我正在尝试使用 MapReduce 的余弦相似度进行基于项目的推荐。
这是输入集。
itemIdx_1, userIdx_1 itemIdx_1, userIdx_2 itemIdx_2, userIdx_1 itemIdx_3, userIdx_3 ...
如何使用此输入数据进行设计?
要使用余弦相似度,我猜输入应该如下所示,
(没有偏好,所以数据假设为 0 或 1) itemIdx_1 , [userIdx_1:1, userIdx_2:1, userIdx_3:0] itemIdx_2 , [userIdx_1:0, userIdx_2:1, userIdx_3:0] ItemIdx_3 , [userIdx_1:0, userIdx_2:0, userIdx_3:1] ...
但是如何使用 MapReduce 比较每一行?
请帮忙。我已经厌倦了这个像一个星期..