2

我有一个 scipy 稀疏矩阵(csr:压缩稀疏行矩阵)。我想使用 Orange 的特征选择方法(Orange.feature.scoring.score_all (InfoGain/MDL))。但是,据我了解,我必须创建一个只接受 numpy 数组作为参数的表。因此,每当我尝试使用 (.toarray()) 将 csr 矩阵转换为数组时,都会出现以下错误(因为矩阵的大小):

Traceback (most recent call last):
  File "C:\Users\NMS\Desktop\PyExp\experiments_acl2013.py", line 249, in <module>
    print(X_train.toarray())
  File "C:\Python27\lib\site-packages\scipy\sparse\compressed.py", line 561, in toarray
    return self.tocoo(copy=False).toarray(order=order, out=out)
  File "C:\Python27\lib\site-packages\scipy\sparse\coo.py", line 238, in toarray
    B = self._process_toarray_args(order, out)
  File "C:\Python27\lib\site-packages\scipy\sparse\base.py", line 635, in _process_toarray_args
    return np.zeros(self.shape, dtype=self.dtype, order=order)
ValueError: array is too big.

是否有另一种方法可以让我通过稀疏矩阵来创建表?或者 有没有办法在 Orange 中应用 InfoGain 或 MDL,而无需直接使用我的稀疏矩阵创建表?

将 memmap 传递给 Table 时,出现以下错误:

>>> t2 = Table(d2, mm)

Traceback (most recent call last):
   File "<pyshell#125>", line 1, in <module>
    t2 = Table(d2, mm)
   TypeError: invalid arguments

在没有域的情况下传递 memmap 时,我得到以下信息:

>>> mm
memmap([[0, 1, 2, 4],
       [9, 8, 6, 3]])
>>> t2 = Table(mm)

Traceback (most recent call last):
  File "<pyshell#128>", line 1, in <module>
    t2 = Table(mm)
TypeError: invalid arguments for constructor (domain or examples or both expected)
4

1 回答 1

0

这是一种解决方法。对于给定的coo_matrix调用m(用 获得m.tocoo()):

1)创建一个numpy.memmap用于写入的数组:

mm = np.memmap('test.memmap', mode='w+', dtype=m.dtype, shape=m.shape)

2)将数据复制到memmap数组,这应该可以工作:

for i,j,v in zip(m.row, m.col, m.data):
    mm[i,j] = v

3)您可以访问文档中详述的memmap ...

于 2014-01-17T19:49:35.340 回答