1

我有一个 CSC 格式的矩阵 A,我只索引一个列

b = A[:,col]

产生一个 (nx 1) 矩阵。我想做的是:

v  = M * b

其中 M 是 CSR 中的 (nxn) 矩阵。结果 v 是一个 (nx 1) CSR 矩阵。我需要迭代 v 中的值(实际上不包括 0)并检索满足特殊标准的一个元素的索引(注意:未选择稀疏矩阵格式来适应该特定操作,但一般矩阵 x 矩阵乘积应该是CSR * CSC 最快,对吧?)

问题是,迭代 CSR 格式向量 (0 < i < n: v[i,0]) 中的条目非常慢,而且我实际上浪费了相当多的内存,因为 v 不再是稀疏的。

谁能告诉我如何执行这些操作,以便我可以快速迭代结果向量,保持与复制相关的内存开销很小?

IN: M (CSR-Matrix), A (CSC-Matrix), col_index
v = M * A[:,col_index]
for entries in v:
    do stuff

是否也可以以某种方式加快对 CSC 矩阵中列的“高级”索引?在代码中的其他点,我必须提取 A 的子矩阵(不能重新格式化以允许切片,因此使用索引数组),其中包括所有列的给定子集。A[:,idxlist] 在行分析时需要很长时间。

期待您的建议

4

2 回答 2

1

scipy sparse 模块在每个版本中都在变得更好,但很明显它正在进行中,因此您可以通过直接访问对象的内部来进行很多优化。例如你的情况:

>>> a = sps.rand(5, 20, density=0.2, format='csr')
>>> b = sps.rand(20, 1, density=0.2, format='csc')
>>> c = a * b
>>> c.A
array([[ 0.30331594],
       [ 0.        ],
       [ 0.12198742],
       [ 0.34350077],
       [ 0.        ]])

c您可以获得as的非零条目c.data

>>> c.data
array([ 0.30331594,  0.12198742,  0.34350077])

获取相应的行号有点棘手。可能最简单的方法是将您的输出转换为 CSC 格式,因为您将它们直接作为c.indices,并且c.data仍然与以前相同:

>>> c.tocsc().indices
array([0, 2, 3])
>>> c.tocsc().data
array([ 0.30331594,  0.12198742,  0.34350077])

但是如果您不喜欢它,您可以在不进行转换的情况下提取它们:

>>> np.where(c.indptr[:-1] != c.indptr[1:])[0]
array([0, 2, 3], dtype=int64)

所以如果你想找到,例如最大值和它的行号,你可以这样做:

>>> row_idx = np.where(c.indptr[:-1] != c.indptr[1:])[0]
>>> idx = np.argmax(c.data)
>>> c.data[idx], row_idx[idx]
(0.34350077450601624, 3)
于 2013-11-02T01:16:24.043 回答
1

在代码审查问题中,我正在探索加快稀疏矩阵行迭代的方法,https://codereview.stackexchange.com/questions/32664/numpy-scipy-optimization/33566#33566

csr getrow出奇的慢。至少对于那个小测试用例,将稀疏矩阵转换为密集数组并使用常规 numpy 索引(用于np.nonzero获取稀疏条目)会更快。lil将矩阵转换为并在 上进行常规 Python 迭代同样快zip(X.data, X.rows)

我的印象是,scipy.sparse它最适合线性代数问题,而索引和迭代速度较慢。

于 2013-11-02T02:40:20.537 回答