2

numpy 的 in1d 函数发生了一个奇怪的问题。我有两个表示粒子 ID 的整数值数组,比如 A 和 B(每个粒子的 ID 都是唯一的)。数组 A 包含所有粒子的列表,数组 B 包含属于一个组的所有粒子的列表(B 中的所有粒子也在 A 中)。我想要得到的是数组 A 中所有分组粒子的索引,但由于某种原因,numpy 的 in1d 没有返回正确的结果。这是一个例子:

A = all particle IDs (length of 54480)
B = all grouped particle IDs (length of 48061)

蛮力搜索表明 B 中的所有粒子 ID 都驻留在 A 中。我也可以这样做:

matches = np.in1d(B,A)
print len(np.where(matches==True)[0])
>> 48061

验证 B 的所有元素是否都存在于 A 中。现在奇怪的是,如果我这样做了

matches = np.in1d(A,B)
print len(np.where(matches==True)[0])
>> 35590

我得到了一些意想不到的东西。这不应该返回 48061 True 和 6419 False 吗?如果有人想弄乱这个数据集(每个约 300K),我已经将A.txtB.txt上传到我的保管箱。提前感谢您提供的任何帮助!

编辑:我还应该提到我需要返回的 bool 数组是未排序的,所以 numpy 的 intersect 是不可能的。

4

1 回答 1

1

检查您的 B 数组,那里只有 35590 个唯一索引。

于 2013-10-31T16:56:22.730 回答