我正在阅读Python NLTK 书。我通过运行以下命令对 Moby Dick 中的单词进行了频率分布:fdist=FreqDist(text1)
其中 text1 是 Moby Dick 的 NLTK Text 对象,即小说中单词的列表。现在我有一个频率分布对象:
>>> fdist1
<FreqDist with 260819 outcomes>
然而,列表中的许多单词在不同的情况下是相同的单词,例如大写和小写的单词“a”:
>>> fdist1['a']
4569
>>> fdist1['A']
167
如何组合这两个词(以及单独列出的所有其他词)?