python - 加速重复数据删除 - Python？

翻译自：https://stackoverflow.com/questions/67006389 2021-04-08T14:42:51.450

77 次

如何加快 Python Dedupe？

我正在使用本地内存运行。当我比较“多对一”记录时，需要 20 多秒。我只是将 2 条记录与 1 条记录进行比较。当我将 600 条记录与 1 条记录进行比较时，仍然需要大约 20 秒。

print("clustering...")
linked_records = linker.join(data_1, data_2, 0.01, 'many-to-one')

它总是挂在linked_records 线上。是否有一种设置可以使较小的数据集运行得更快？

在 linker.partition 中，它声明了以下内容：

此方法仅适用于较大数据的中小型数据集，您可能需要生成自己的记录对并将它们提供给 ~score。

你是怎样做的？

0 回答 0