-2

我正在写一份报告,我需要计算文本文件的唯一单词。

我的文本在 D:\shakeall 中,它们总共有 42 个文件...

我对 Python 有所了解,但我现在不知道该怎么办。

这就是我所知道的它是如何工作的。

  1. 读取目录中的文件

  2. 从文本中组成一个单词列表

  3. 计算总数/唯一词

我所知道的就是这个。还有一些关于 for、while、列表和索引、变量、列表...

我想做的是制作自己的函数库并使用它来获得结果。

我非常感谢任何关于我的问题的建议。

------ps

我对 Python 几乎一无所知。我只能做一个简单的数学运算或在列表中打印单词……给定的主题对我来说太难了。对不起。

4

2 回答 2

3
textfile=open('somefile.txt','r')
text_list=[line.split(' ') for line in textfile]
unique_words=[word for word in text_list if word not in unique_words]
print(len(unique_words))

这是它的一般要点

于 2012-08-07T09:15:12.387 回答
2
import os
uniquewords = set([])

for root, dirs, files in os.walk("D:\\shakeall"):
    for name in files:
        [uniquewords.add(x) for x in open(os.path.join(root,name)).read().split()]

print list(uniquewords)
print len(uniquewords)
于 2012-08-07T09:15:35.163 回答