python - 使用 NLP 测量文本的丰富信息

Question

是否有任何衡量文本信息丰富程度的指标？

我正在考虑任何可以在文本中可靠地显示独特信息段的东西。使用频率分布或唯一词的简单度量是可以的，但它们并不能完全显示句子中的唯一信息。

使用编码方法，我必须手动编码每个句子/单词或任何可以算作文本中唯一信息的内容，但这可能需要一段时间。所以，我想知道我是否可以使用 NLP 作为替代方案。

更新

举个例子：

Navtilos，圣托里尼火山的一个小火山岛，于 1928 年喷发形成。

如果我使用编码分析，我可以数出 4 个独特的信息点：什么是 Navtilos，它在哪里，它是如何创建的以及何时创建的。

显然，人类对文本的解释与计算机不同。我只是想知道是否有一种方法可以识别句子/文本中的独特信息。它不必产生与我相同的结果，但在不同的句子中是可靠的。

频率分布可能有效，但我想知道是否还有其他指标。

score 3 · Accepted Answer

您似乎正在寻找的是关键字/术语提取器（有关关键字提取器的列表，请参见例如this，“外部链接”）。提取器将提取由一个或多个单词组成的短语，这些单词捕获了文本中提到的一些概念，但不会将它们分类为类别（正如命名实体识别器所做的那样）。

例如，参见这个演示。从您示例中的句子中，它提取：

small volcanic islet
Navtilos
Santorini

如果您有很多文档，则可以使用文档中每个关键字的频率分布来衡量它对每个文档的具体程度（假设文档的关键字的唯一性反映了它对文档内容的描述程度）。为此，您可以使用tf-idf 之类的度量。

1 回答 1