在使用具有接近 200 万个位串的 numpy 数组计算汉明距离时,我试图实现更快的计算时间,每个位串的长度为 1280。
我当前的实现大约需要 4 秒,这对我的情况来说非常糟糕。我目前的做法:
>>> A = np.array
>>> A = A.repeat(2000000,axis=0)
>>> B = A
>>> A.shape
(2000000,)
>>> B.shape
(2000000,)
>>> first=(np.fromstring(A, dtype=np.uint8)-48).reshape(-1,1280)
>>> second=(np.fromstring(B, dtype=np.uint8)-48).reshape(-1,1280)
>>> hamm_dist = (first!=second).sum(1)
>>> hamm_dist.shape
(2000000,)
有没有更快的方法可以将我的计算时间缩短到不到一秒或更好?