在机器学习算法中,您经常处理稀疏数据集,例如来自分类数据(例如电影名称),而稀疏矩阵处理大部分功能。
是否有一些为机器学习用例包装 scipy.sparse 矩阵的库?
我看到的两个主要缺失功能是:
命名行/列(即,您可以识别例如电影名称,而不是使用整数 ID)
在保留索引的同时进行子集化。例如,如果我从一个大的 50000 行稀疏矩阵中选择 2 个电影 id(第 500 行和第 1000 行),我想返回一个只有第 500 行和 1000 行非空的 50000 行稀疏矩阵,以便保留映射/名称。
但我怀疑还有其他我还没有发现...