python - Python Postgresql 重复数据删除耗费大量时间。能有什么优化吗？

翻译自：https://stackoverflow.com/questions/45428436 2017-08-01T03:22:01.223

243 次

我正在使用 postgres 重复数据删除示例代码。对于 10,000 行，它消耗 163 秒。我发现这部分大部分时间都在消耗：

full_data = []
cluster_membership = collections.defaultdict(lambda : 'x')
for cluster_id, (cluster, score) in enumerate(clustered_dupes):
    for record_id in cluster:
        for row in data:
            if record_id == int(row[0]):
                row = list(row)
                row.insert(0,cluster_id)
                row = tuple(row)
                full_data.append(row)

这部分是否有任何可能的优化，以便它以更少的时间复杂度产生相同的结果？该脚本是否适用于 1.5 亿条记录？

python - Python Postgresql 重复数据删除耗费大量时间。能有什么优化吗？

0 回答 0

Related

Reference