我正在尝试从文本文件生成 unigram。但只显示给定文件第一行的二元组。我想为文件中的所有句子显示 unigram。
import string;
import sys;
import tokenize;
f = open("data.txt", 'r');
line=f.readline();
while line:
line = line.rstrip();
list = line.split();
for word in list:
print word
line = f.readline();
为什么它没有显示句子的一元组,我怎样才能把它变成一个二元组?
提前致谢。
data.txt 是包含句子的文本文件。它有两句话——
Hello world this is a test code
today is 29th november 2011
我得到输出:
Hello
world
this
is
a
test
代码