4

我需要在大型数据集中查找重复项,因此我正在测试重复数据删除python 库。

我知道它被推荐用于小型数据集,所以我认为使用一台好的机器可以提高性能。我有一台具有 56 GB RAM 的机器,我正在为具有 200000 行的数据集运行类似于“csv_example”的测试。它可以工作,但内存使用率非常低,因此处理(CPU)。

在阻塞阶段似乎花费了太长时间:

INFO:dedupe.blocking:10000, 110.6458142 seconds
INFO:dedupe.blocking:20000, 300.6112282 seconds
INFO:dedupe.blocking:30000, 557.1010122 seconds
INFO:dedupe.blocking:40000, 915.3087222 seconds

任何人都可以帮助我改善使用情况或告诉我是否有任何库/设置使程序使用更多可用资源?

4

1 回答 1

3

您正在运行什么版本的重复数据删除?截至1.6.8,它应该很容易处理这种大小的记录集。

但是,一般指导是,当您遇到内存问题时,请切换到像postgres示例中那样使用数据库进行阻塞。

(我是重复数据删除的主要作者)。

于 2017-06-12T00:52:01.073 回答