python - 将来自文本挖掘的多个值附加到python中的单个列表中

Question

我有一个要从中导入数据的 csv 文件。我正在尝试创建两篇论文中使用的单词列表以及使用次数。我正在运行一个循环来获取包含两篇文章的 csv 文件的每一行，并且输出会发布两篇文章之间的组合字数。但是，我有数百行，每行有两篇文章。我希望有一个包含所有论文的所有单词和字数的列表。

import textmining

import csv

with open('2011ShortAnswers.csv', 'rb') as csvfile:
    data = csv.reader(csvfile, delimiter=",")

    for row in data:
        doc1 = row[3]
        doc2 = row[4]

        tdm = textmining.TermDocumentMatrix()

        tdm.add_doc(doc1)
        tdm.add_doc(doc2)

        for row in tdm.rows(cutoff=1):
            print row

score 0 · Accepted Answer

尝试使用字典，在其中增加每个单词：

word_count_dictionary = {}
for word in row:
    if word not in word_count_dictionary.keys():
        word_count_dictionary[word] = 1
    else:
        word_count_dictionary[word] += 1

然后，您可以遍历键以形成您需要的列表：

word_count_list = [(word,word_count_dictionary[word]) for word in word_count_dictionary.keys()]

python - 将来自文本挖掘的多个值附加到python中的单个列表中

1 回答 1

Related

Reference