在我用 final line 运行几行代码后,我得到了一个输出vocabulary
。它给了我 46132 个不同的单词,并告诉我每个单词在文档中出现的次数。
我附上了下面的输出截图。我不确定是哪种格式vocabulary
。我需要提取文档中出现频率最高的 10 个词和出现频率最低的 10 个词。我不确定该怎么做,可能是因为我不知道输出的格式是str
还是tuple
.
我可以只使用max(vocabulary)
获取文档中出现频率最高的单词吗?sorted(vocabulary)
并获得前 10 个和后 10 个作为文档中出现频率最高的 10 个和最不常见的 10 个单词?