3

给定一组文本(可能是书籍、文章、文档等),您将如何找到每个文本的相关关键字?常识建议:

  • 分词
  • 排除常用词(也称为停用词,如“a、to、for、in”)
  • 计算单词频率
  • 给每个单词打分,公式考虑到每个单词在文档和其他文档中出现的频率、文档的单词数和所有文档的总单词数

问题是:这是一个很好的公式来做到这一点?

4

1 回答 1

7

我开发了一个。

对于每个单词计算这个比率:

(frequency of word in this text) * (total number of words in all texts)
-----------------------------------------------------------------------
  (number of words in this text) * (frequency of word in all texts)

关键词是那些比例在最高 20% 的词(对于这个文件)。

Ankerl还提出了自己的公式:

tanh(curVal/curWords*200) - 5*tanh((allVal-curVal)/(allWords-curWords)*200)

在哪里:

  • curVal:要评分的单词在待分析文本中出现的频率
  • curWords:待分析文本中的总字数
  • allVal:要评分的单词在索引数据集中出现的频率
  • allWords:索引数据集的总单词数

两种算法都运行良好,而且结果通常一致。你知道有什么方法可以做得更好吗?

于 2013-03-13T18:13:48.887 回答