5

我有一个稀疏矩阵,是通过一堆复杂的计算得出的,在这里我无法重现。我将尝试找到一个更简单的例子。

现在,有没有人知道(甚至远程)我可能有一个X具有以下属性的稀疏矩阵:

In [143]: X.sum(0).sum()
Out[143]: 131138

In [144]: X.sum()
Out[144]: 327746

In [145]: X.sum(1).sum()
Out[145]: 327746

In [146]: type(X)
Out[146]: scipy.sparse.csr.csr_matrix

我唯一的猜测是,如果我想正确地对列求和,我需要首先将矩阵转换为 csc——这是有道理的。尽管有人会认为 sparse 包会优雅地处理列总和(或抛出错误),而不是仅仅给出错误的答案。

经过更多思考,我尝试了以下方法:

In [164]: X.tocsr().sum(0).sum()
Out[164]: 131138

In [165]: X.tocsc().sum(0).sum()
Out[165]: 131138

In [166]: X.tocoo().sum(0).sum()
Out[166]: 131138

In [167]: X.tolil().sum(0).sum()
Out[167]: 131138

In [168]: X.todok().sum(0).sum()
Out[168]: 131138

In [169]: X.shape
Out[169]: (196980, 43)

In [170]: X
Out[170]: 
<196980x43 sparse matrix of type '<type 'numpy.uint16'>'
        with 70875 stored elements in Compressed Sparse Row format>

In [172]: X.todense().sum(0)
Out[172]: 
matrix([[170726,   1041, 117398,   3526,  13202,   3585,   2355,   1895,   1392,   2189,   2070,   2603,   1676,    496,   1194,    933,    129,
            529,    544,    256,      7,      0,      0,      0,      0,      0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0]], dtype=uint64)

In [173]: X.sum(0)
Out[173]: 
matrix([[39654,  1041, 51862,  3526, 13202,  3585,  2355,  1895,  1392,  2189,  2070,  2603,  1676,   496,  1194,   933,   129,   529,   544,   256,
             7,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0]], dtype=uint16)

我应该添加更多上下文:矩阵只有非负条目(它们是计数)。特别是有两个稀疏计数矩阵AB我将它们相乘得到X.

4

1 回答 1

2

好的,所以seberg回答了这个问题。非常感谢。去赛贝格!

他观察到数据类型 uint16 可能是个问题。果然 - uint16 最大约为 65,000,而我的总和比这大得多,即使我的个人数据点比这小得多。

布丁中的证明:

In [184]: Y = sparse.csc_matrix(X,dtype=np.uint32)

In [185]: Y.sum(0).sum()
Out[185]: 327746

In [187]: Y.sum(0)
Out[187]: 
matrix([[170726,   1041, 117398,   3526,  13202,   3585,   2355,   1895,   1392,   2189,   2070,   2603,   1676,    496,   1194,    933,    129,
            529,    544,    256,      7,      0,      0,      0,      0,      0,      0,      0,      0,      0,      0,      0,      0,      0,
              0,      0,      0,      0,      0,      0,      0,      0,      0]], dtype=uint32)

这解释了不一致的总和,并通过更改数据类型来纠正问题。虽然,仍然存在一个持久性问题——如果我有一个包含所有小条目的矩阵,我希望能够为它使用更小的数据类型(以节省内存)。

这是一个单独但相关的问题:

在对稀疏矩阵的列求和时,有没有办法优雅地处理数值溢出问题?

于 2012-11-15T17:33:12.410 回答