我尝试在熊猫数据框上应用 murmurhash。我想使用 scikit-learn murmurhash3_32(任何其他简单的提议都会受到赞赏)。我试过了
import pandas as pd
from sklearn.utils.murmurhash import murmurhash3_32
df = pd.DataFrame({'a': [100, 1000], 'b': [200, 2000]}, dtype='int32')
df.apply(murmurhash3_32)
但我明白了
TypeError: ("key 0 100\n1 1000\nName: a, dtype: int32 with type class 'pandas.core.series.Series' 不支持。需要显式转换为字节", '发生在索引 a')
但 Scikit 应该处理 int32: https ://scikit-learn.org/dev/modules/generated/sklearn.utils.murmurhash3_32.html#sklearn.utils.murmurhash3_32
有什么想法或建议吗?