我被分配编写一个捕捉抄袭者的程序。给定一个文件文件夹,我将如何逐个文件地遍历它们,构建每个文件中所有 6 词短语的列表。这方面的一个例子是
现在是所有好人来援助他们国家的时候了。
包含 6 个单词的短语:现在是所有人的时间,是所有人的时间,是所有人的时间,所有人的时间,所有人的时间,......等等。
ExampleFile=F.read('File')
index1=0
index2=5
List1=[]
while True:
index1+=1
index2+=1
List1+= Examplefile[index1:index2]
到目前为止,我已经创建了 6 个单词短语的列表。那么我将如何对每个文件执行此操作,然后比较这些结果以查看是否有任何两个文件有超过 200 个相同的短语?我在 Python 中使用文件方面做得很少,所以尽可能地把所有东西都简化了。谢谢!