我有一个程序,python
其中使用两个文件作为输入 - 并计算它们之间的相似性。我想使用目录中所有可能的文件组合作为输入。如何使用 python
扩展我已经拥有的脚本来做到这一点?
我知道有一些工具glob
可以遍历整个文件。但是,我还能做些什么来创建所有不同的文件组合?
另外,作为@hcwhsa 和@Ashish Nitin Patil,如何itertools
与glob
??
感谢您的任何见解。
更多细节:
我的代码需要 2 个相同的输入(我有大约 50 个这些文件的目录)。每个输入都是 3 个制表符分隔的列(值 1、值 2、权重)。基本上有了这些信息,我计算了 jaccard 系数,如下所示:
def compute_jaccard_index(set_1, set_2):
return len(set_1.intersection(set_2)) / float(len(set_1.union(set_2)))
我想为目录中所有可能的文件组合计算这个系数。截至目前,我在本地将每个文件称为:
with open('input_file1', 'r') as infile_B:
with open('input_file2', 'r') as infile_B:
我的目标是在目录中所有可能的文件组合上迭代函数。