我正在开发一个简单的推荐系统并尝试进行一些计算,如 SVD、RBM 等。
为了更有说服力,我将使用 Movielens 或 Netflix 数据集来评估系统的性能。但是,这两个数据集都拥有超过 100 万的用户和超过 1 万条商品,不可能将所有数据都放入内存中。我必须使用一些特定的模块来处理这么大的矩阵。
我知道 SciPy 中有一些工具可以处理这个问题,python-recsys使用的divisi2似乎也是一个不错的选择。或者也许有一些我不知道的更好的工具?
我应该使用哪个模块?有什么建议吗?