我有一个包含 100 个句子的文本文件。我想编写一个 python 脚本,它会从包含 100 个句子的文本文件中计算平均句子长度(以单词为单位)。谢谢
问问题
12549 次
3 回答
7
天真的方式:
sents = text.split('.')
avg_len = sum(len(x.split()) for x in sents) / len(sents)
严肃的方法:使用nltk根据目标语言规则对文本进行标记。
于 2012-12-20T10:47:54.120 回答
3
wordcounts = []
with open(filepath) as f:
text = f.read()
sentences = text.split('.')
for sentence in sentences:
words = sentence.split(' ')
wordcounts.append(len(words))
average_wordcount = sum(wordcounts)/len(wordcounts)
于 2012-12-20T10:40:28.983 回答
0
这应该可以帮助你。但这是基本的东西,你至少应该自己尝试一下。
此代码假定每个句子都在新行上。
如果不是这种情况,您可以更正代码,或者在您的问题中反映这一点,对此尚不清楚。
def read_lines_from_file(file_name):
with open(file_name, 'r') as f:
for line in f:
yield line.strip()
def average_words(sentences):
counts = []
for sentence in sentences:
counts.append(sentence.split())
return float(sum(counts)/len(counts))
print average_words(read_lines_from_file(file_name))
于 2012-12-20T10:43:46.430 回答