我正在使用 Python 脚本并将结果(使用 ntlk 计算)写入 arff 文件。需要进入 arff 文件的信息是字母和单词(不是数字)。但是,每当我运行我的脚本时,我都会得到一个包含零的 arff 文件。像这样:
0,0.0,0.0,0
这是我写入 arff 的一段代码:
for fileid in corpus.fileids():
cat = str(fileid.split('/')[0])
text = corpus.words(fileid)
text2 = corpus.raw(fileid)
text3 = ngrams(text2, 3)
text4 = ngrams(text2, 4)
lijst = [frequencycount(text, freq)] + [frequencycount(text3, chartrigramfreq)] + [frequencycount(text4, chartetragramfreq)]
merged = list(itertools.chain.from_iterable(lijst))
merged2 = ','.join(merged)
filet.write("%s\n" % merged2)
counter += 1
print counter, fileid, time()-tijd
filet.close()