2

从一个数组db(大约是(1e6, 300))和一个mask = [1, 0, 1]向量中,我将目标定义为第一列中的 1。

我想创建一个out向量,该向量由其中对应的行db匹配maskandtarget==1和其他任何地方的零组成。

db = np.array([       # out for mask = [1, 0, 1]
# target,  vector     #
  [1,      1, 0, 1],  # 1
  [0,      1, 1, 1],  # 0 (fit to mask but target == 0)
  [0,      0, 1, 0],  # 0
  [1,      1, 0, 1],  # 1
  [0,      1, 1, 0],  # 0
  [1,      0, 0, 0],  # 0
  ])

我已经定义了一个vline函数,该函数将 amask应用于每个数组行,np.array_equal(mask, mask & vector)用于检查向量 101 和 111 是否适合掩码,然后仅保留索引 where target == 1

out被初始化为array([0, 0, 0, 0, 0, 0])

out = [0, 0, 0, 0, 0, 0]

vline函数定义为:

def vline(idx, mask):
    line = db[idx]
    target, vector = line[0], line[1:]
    if np.array_equal(mask, mask & vector):
        if target == 1:
            out[idx] = 1

for通过在循环中逐行应用此函数,我得到了正确的结果:

def check_mask(db, out, mask=[1, 0, 1]):
    # idx_db to iterate over db lines without enumerate
    for idx in np.arange(db.shape[0]):
        vline(idx, mask=mask)
    return out

assert check_mask(db, out, [1, 0, 1]) == [1, 0, 0, 1, 0, 0] # it works !

现在我想vline通过创建一个矢量化ufunc

ufunc_vline = np.frompyfunc(vline, 2, 1)
out = [0, 0, 0, 0, 0, 0]
ufunc_vline(db, [1, 0, 1])
print out

但是ufunc抱怨用这些形状广播输入:

In [217]:     ufunc_vline(db, [1, 0, 1])
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-217-9008ebeb6aa1> in <module>()
----> 1 ufunc_vline(db, [1, 0, 1])
ValueError: operands could not be broadcast together with shapes (6,4) (3,)
In [218]:
4

1 回答 1

1

转换vlinenumpy ufunc从根本上说没有意义,因为 ufunc 总是以元素方式应用于 numpy 数组。因此,输入参数必须具有相同的形状,或者必须可以广播到相同的形状。您正在将两个形状不兼容的数组传递给您的ufunc_vline函数(db.shape == (6, 4)mask.shape == (3,)),因此ValueError您看到的是。

还有其他几个问题ufunc_vline

  • np.frompyfunc(vline, 2, 1)指定vline应返回单个输出参数,而vline实际上不返回任何内容(但out在适当位置进行修改)。

  • 您将db作为第一个参数传递给ufunc_vline,而vline期望第一个参数是idx,它用作 的行的索引db

此外,请记住,从 Python 函数 using 创建 ufunc不会比标准 Python循环np.frompyfunc产生任何明显的性能优势。for要看到任何重大改进,您可能需要用 C 等低级语言编写 ufunc(请参阅文档中的此示例)。


话虽如此,您的vline函数可以使用标准布尔数组操作轻松矢量化:

def vline_vectorized(db, mask): 
    return db[:, 0] & np.all((mask & db[:, 1:]) == mask, axis=1)

例如:

db = np.array([       # out for mask = [1, 0, 1]
# target,  vector     #
  [1,      1, 0, 1],  # 1
  [0,      1, 1, 1],  # 0 (fit to mask but target == 0)
  [0,      0, 1, 0],  # 0
  [1,      1, 0, 1],  # 1
  [0,      1, 1, 0],  # 0
  [1,      0, 0, 0],  # 0
  ])

mask = np.array([1, 0, 1])

print(repr(vline_vectorized(db, mask)))
# array([1, 0, 0, 1, 0, 0])
于 2015-12-29T16:11:16.000 回答