NLTK 书中有几个字数统计示例,但实际上它们不是字数统计,而是令牌计数。例如,第 1 章,计数词汇说以下给出了字数:
text = nltk.Text(tokens)
len(text)
然而,它没有——它给出了一个单词和标点符号的数量。你怎么能得到一个真正的字数(忽略标点符号)?
同样,如何获得一个单词的平均字符数?显而易见的答案是:
word_average_length =(len(string_of_text)/len(text))
但是,这将被关闭,因为:
- len(string_of_text) 是字符数,包括空格
- len(text) 是一个记号计数,不包括空格但包括标点符号,它们不是单词。
我在这里错过了什么吗?这一定是一个非常常见的 NLP 任务……