python - 如何使用 Numba 附加 String Int 和 Float 类型的列表

Question

我正在使用 Numba 来提高以下循环的速度。没有 Numba 执行需要 135 秒，使用 Numba 需要 0.30 秒 :) 非常快。

在下面的循环中，我将数组与阈值 0.85 进行比较。如果条件结果为真，我将数据插入到函数将返回的列表中。

插入到列表中的数据如下所示。

['Source ID', 'Source TEXT', 'Similar ID', Similar TEXT, 'Score']

idd = df['ID'].to_numpy()
txt = df['TEXT'].to_numpy()

Column = 'TEXT'
df = preprocessing(dataresult, Column) # removing special characters of 'TEXT' column
message_embeddings = model_url(np.array(df['DescriptionNew']))  #passing df to universal sentence encoder model to create sentence embedding.
cos_sim = cosine_similarity(message_embeddings) #len(cos_sim) > 8000

# Below function finds duplicates amoung rows.
@numba.jit(nopython=True)
def similarity(nid, txxt, cos_sim, threshold):

  numba_list = List()
  for i in range(cos_sim.shape[0]):
    for index in range(i, cos_sim.shape[1]):
      if (cos_sim[i][index] > threshold) & (i!=index):
        numba_list.append([nid[i], nid[index], cos_sim[i][index]]) # either this works
        # numba_list.append([txxt[i], txxt[index]]) # or either this works
        # numba_list.append([nid[i], txxt[i], nid[index], txxt[index], cos_sim[i][index]]) # I want this to work.
              
  return numba_list

print(similarity(idd, txt, cos_sim, 0.85))

在附加列表期间的上述代码中，要么附加带有数字的列，要么附加文本。我希望所有带有数字和文本的列都插入到numba_list.

我低于错误


1 frames
/usr/local/lib/python3.7/dist-packages/numba/core/dispatcher.py in error_rewrite(e, issue_type)
    359                 raise e
    360             else:
--> 361                 raise e.with_traceback(None)
    362 
    363         argtypes = []

TypingError: Failed in nopython mode pipeline (step: nopython frontend)
Poison type used in arguments; got Poison<LiteralList((int64, [unichr x 12], int64, [unichr x 12], float32))>
During: resolving callee type: BoundFunction((<class 'numba.core.types.containers.ListType'>, 'append') for ListType[undefined])
During: typing of call at <ipython-input-179-6ee851edb6b1> (14)


File "<ipython-input-179-6ee851edb6b1>", line 14:
def zero(nid, txxt, cos_sim, threshold):
    <source elided>
        # print(i+1)
        numba_list.append([nid[i], txxt[i], nid[index], txxt[index], cos_sim[i][index]])
        ^

score 0 · Accepted Answer

您面临的问题来自输入问题：Numba 无法推断列表的类型。问题的根源在于您正在处理包含不同项目类型的列表（这是 Numba 尚不支持的 AFAIK，并且无论如何都不会有效）。然而，元组就是为此而生的。这是一个未经测试的示例：

@numba.njit
def similarity(nid, txxt, cos_sim, threshold):
  numba_list = List()
  for i in range(cos_sim.shape[0]):
    for index in range(i, cos_sim.shape[1]):
      if (cos_sim[i][index] > threshold) & (i!=index):
        numba_list.append((nid[i], nid[index], cos_sim[i][index]))
  return numba_list

由于条件通常为真，因此您可以使用具有直接索引的预分配 Numpy 数组而不是缓慢的列表append调用来大大加快计算速度。但是，此解决方案的返回类型将有所不同。这个想法是在示例中返回一个由 3 个数组组成的元组，而不是一个每个包含 3 个项目的元组列表。该解决方案还受益于显着减少内存。

python - 如何使用 Numba 附加 String Int 和 Float 类型的列表

1 回答 1

Related

Reference