我有一些包含可变列号的文本文件,由\t
(制表符)分隔。像这样的东西:
value1x1 . . . . . . value1xn
. . . . . . . value2xn
. . . . . . . .
valuemx1 . . . . . . valuemxn
我可以使用以下代码扫描并确定值的频率;
f2 = open("out_freq.txt", 'w')
f = open("input_raw",'r')
whole_content = (f.read())
list_content = whole_content.split()
dict = {}
for one_word in list_content:
dict[one_word] = 0
for one_word in list_content:
dict[one_word] += 1
a = str(sorted(dict.items(),key=func))
f2.write(a)
f2.close()
其输出如下:
('26047', 13), ('42810', 13), ('61080', 13), ('106395', 13), ('102395', 13)...
它的语法是('value', occurence_number)
,它按预期工作。我想要实现的是:
将输出转换为以下语法:
('value', occurrence_number, column_number)
其中列号是该值在 input_raw.txt 中出现的列号将具有相同出现次数的值分组以分隔列并将这些值写入不同的文件