我正在尝试读取一个文本文件并使用文本挖掘包创建一个术语文档矩阵。我可以创建术语文档矩阵,我需要逐行添加每一行。问题是我想一次包含整个文件。我在以下代码中缺少什么?提前感谢您的任何建议?
import textmining
def term_document_matrix_roy_1():
'''-----------------------------------------'''
with open("data_set.txt") as f:
reading_file_line = f.readlines() #entire content, return list
print reading_file_line #list
reading_file_info = [item.rstrip('\n') for item in reading_file_line]
print reading_file_info
print reading_file_info [1] #list-1
print reading_file_info [2] #list-2
'''-----------------------------------------'''
tdm = textmining.TermDocumentMatrix()
#tdm.add_doc(reading_file_info) #Giving error because of readlines
tdm.add_doc(reading_file_info[0])
tdm.add_doc(reading_file_info[1])
tdm.add_doc(reading_file_info[2])
for row in tdm.rows(cutoff=1):
print row
示例文本文件:“data_set.txt”包含以下信息:
让我们写一些python代码
到目前为止,本书主要讨论了即席检索的过程。
在此过程中,我们将学习一些重要的机器学习技术。
输出将是 Term Document Matrix,基本上是一个特定单词出现了多少次。输出图像: http: //postimg.org/image/eidddlkld/