我有以下数据集(具有不同的值,只是乘以相同的行)。我需要组合这些列并对它们进行哈希处理,特别是使用库 hashlib 和提供的算法。
问题是它花费的时间太长,不知何故我觉得我可以对函数进行矢量化,但我不是专家。
该功能非常简单,我觉得它可以矢量化,但很难实现。
我正在处理数百万行,即使散列 4 列值也需要数小时。
import pandas as pd
import hashlib
data = pd.DataFrame({'first_identifier':['ALP1x','RDX2b']* 100000,'second_identifier':['RED413','BLU031']* 100000})
def _mutate_hash(row):
return hashlib.md5(row.sum().lower().encode()).hexdigest()
%timeit data['row_hash']=data.apply(_mutate_hash,axis=1)