0

如何加快 Python Dedupe?

我正在使用本地内存运行。当我比较“多对一”记录时,需要 20 多秒。我只是将 2 条记录与 1 条记录进行比较。当我将 600 条记录与 1 条记录进行比较时,仍然需要大约 20 秒。

print("clustering...")
linked_records = linker.join(data_1, data_2, 0.01, 'many-to-one')

它总是挂在linked_records 线上。是否有一种设置可以使较小的数据集运行得更快?

在 linker.partition 中,它声明了以下内容:

此方法仅适用于较大数据的中小型数据集,您可能需要生成自己的记录对并将它们提供给 ~score。

你是怎样做的?

4

0 回答 0