0

我正在尝试解决以下问题:

使用 state_union 语料库阅读器阅读国情咨文地址的文本。计算每个文档中出现的男性、女性和人员。随着时间的推移,这些词的使用发生了什么变化?

这来自http://nltk.org/book/ch02.html

我的问题:我知道的所有计算单词出现次数的函数都会产生错误消息。

这是一个例子:

from nltk.corpus import state_union

len(state_union)
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-4-cb4ef2bb9247> in <module>()
----> 1 len(state_union)

TypeError: object of type 'LazyCorpusLoader' has no len()

state = state_union

len(state)
4

1 回答 1

0

像错误状态一样,state_union没有len(). 您可以state_union.raw()用于原始数据、state_union.words()单词和state_union.sents句子。

len(state_union.words())会给你字数。

于 2013-09-17T05:41:30.220 回答