我的目录有数百个文件,其中一些名称不同但内容重复。我已将文件分组到一个数组中并执行以下操作:
import os
import itertools
import hashlib
directory = os.listdir(input())
for collection1, collection2 in itertools.combinations (directory, 2):
def check(data):
data_check = hashlib.md5()
data_check.update(open(data).read())
return data_check.hexdigest()
def match_check(c1, c2):
return check(c1) == check(c2)
match_check(collection1,collection2)