是否有任何衡量文本信息丰富程度的指标?
我正在考虑任何可以在文本中可靠地显示独特信息段的东西。使用频率分布或唯一词的简单度量是可以的,但它们并不能完全显示句子中的唯一信息。
使用编码方法,我必须手动编码每个句子/单词或任何可以算作文本中唯一信息的内容,但这可能需要一段时间。所以,我想知道我是否可以使用 NLP 作为替代方案。
更新
举个例子:
Navtilos,圣托里尼火山的一个小火山岛,于 1928 年喷发形成。
如果我使用编码分析,我可以数出 4 个独特的信息点:什么是 Navtilos,它在哪里,它是如何创建的以及何时创建的。
显然,人类对文本的解释与计算机不同。我只是想知道是否有一种方法可以识别句子/文本中的独特信息。它不必产生与我相同的结果,但在不同的句子中是可靠的。
频率分布可能有效,但我想知道是否还有其他指标。