我有一个要从中导入数据的 csv 文件。我正在尝试创建两篇论文中使用的单词列表以及使用次数。我正在运行一个循环来获取包含两篇文章的 csv 文件的每一行,并且输出会发布两篇文章之间的组合字数。但是,我有数百行,每行有两篇文章。我希望有一个包含所有论文的所有单词和字数的列表。
import textmining
import csv
with open('2011ShortAnswers.csv', 'rb') as csvfile:
data = csv.reader(csvfile, delimiter=",")
for row in data:
doc1 = row[3]
doc2 = row[4]
tdm = textmining.TermDocumentMatrix()
tdm.add_doc(doc1)
tdm.add_doc(doc2)
for row in tdm.rows(cutoff=1):
print row