我有一组文档,我想返回一个元组列表,其中每个元组都有给定文档的日期以及给定搜索词在该文档中出现的次数。我的代码(如下)可以工作,但速度很慢,而且我是 n00b。有没有明显的方法可以加快速度?任何帮助将不胜感激,主要是为了让我可以学习更好的编码,同时也让我可以更快地完成这个项目!
def searchText(searchword):
counts = []
corpus_root = 'some_dir'
wordlists = PlaintextCorpusReader(corpus_root, '.*')
for id in wordlists.fileids():
date = id[4:12]
month = date[-4:-2]
day = date[-2:]
year = date[:4]
raw = wordlists.raw(id)
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
count = text.count(searchword)
counts.append((month, day, year, count))
return counts