我是 python 新手。我有一个简单的程序来查找一个词在网站中被使用的次数。
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
url = 'https://en.wikipedia.org/wiki/Wolfgang_Amadeus_Mozart'
ourUrl = opener.open(url).read()
soup = BeautifulSoup(ourUrl)
dem = soup.findAll('p') #find paragraphs
word_counts = Counter()
stopwords = frozenset(('A', 'AN', 'THE'))
for i in dem: # loop for each para
words = re.findall(r'\w+', i.text)
cap_words = [word.upper() for word in words if not word.upper() in stopwords]
word_counts.update(cap_words)
print word_counts
问题是,这个脚本给出了很多只使用一次的单词。如何更新脚本以使包含的单词至少有 5 个字数。
另外,我如何排列前 5 个最常用的单词,比如 word1、word2、word3.... 等。