一直以来(特别是在 Netflix 比赛中),我总是遇到这个博客(或排行榜论坛),他们提到如何通过对数据应用简单的 SVD 步骤来帮助他们减少数据的稀疏性,或者总体上提高算法的性能手。我试图思考(很久以来),但我无法猜测为什么会这样。一般来说,我手头的数据非常嘈杂(这也是大数据的有趣部分),然后我知道一些基本的特征缩放的东西,比如对数转换的东西,平均归一化。但是像 SVD 这样的东西有什么帮助。所以假设我有一个巨大的用户评分电影矩阵......然后在这个矩阵中,我实现了一些版本的推荐系统(比如协同过滤):
1) Without SVD
2) With SVD
它有什么帮助