1

我有许多文本文件。我想使用 NLTK 以纯文本 .text 格式预处理和打印词汇表,以便我可以分发这些文件供人们使用。我做了以下事情。我从单个文件开始:

file1 = open("path/to/text/file","rU")
raw = file1.read()
tokens = nltk.wordpunct_tokenize(raw)
words = [w.lower for w in tokens]
vocab = sorted(set(tokens))

现在我想将词汇中的项目列表放入纯文本.txt人类可读文件中。我该怎么做?

4

1 回答 1

4

手动写出来:

with open("output.txt", "w") as f:
    for item in vocab:
        f.write(item + "\n")
于 2012-03-28T14:57:40.713 回答