我在使用重复数据删除创建日志文件时遇到了一些问题:这是我用来创建日志文件的语法:
import datetime
import sys
global log_log_file
def writeErrorLogMessage(message):
execution_log_line=str(datetime.datetime.now())+', - ERROR, '+message+". The process was stopped\n"
log_log_file.write(execution_log_line)
log_log_file.flush()
log_log_file.close()
sys.exit()
def writeInfoLogMessage(message):
execution_log_line=str(datetime.datetime.now())+', - '+message+".\n"
log_log_file.write(execution_log_line)
log_log_file.flush()
当我开始集群过程时:
clustered_dupes = deduper.partition(data_d, threshold=th)
它会随机创建一个新的日志文件。例如:我启动代码并在集群时创建 logfile1 它创建 logfile2 logfile3 logfile4 logfile5 和 logfile6 但它们不是原始日志文件的副本,它们仅包含实际文件导入之前的日志(因此它们不包括第一次检查和集群之间的代码块)当集群结束时,继续更新的文件是 logfile1,而不是 logfile6,它是最后一个创建的文件。所以以某种方式打开和关闭了这些文件(我在代码的最后一行关闭了日志文件,所以奇怪的是新创建的文件跳过了一大块代码)我认为也许集群使用了代码并再次执行它但是不是主要的,所以它跳过了所有
if __name__='__main__'
代码。我在 deduper.clustering 下查找代码,但是当我使用 print(dedupe.file )时,dedupe 目录不包含 deduper 或分区。所以它可能会想起另一个我不知道如何命名的文件模块我该如何避免这种情况?多谢