-1

我正在尝试考虑一种算法,可以搜索一段文本以查找关键字,例如我有一个单词数组:

Sample=['Andy' 'Murray' 'is' 'expecting' 'a' 'difficult' 'test' 'when' 'he' 'faces' 'David' 'Ferrer' 'in' 'the' 'final' 'of' 'the' 'Sony' 'Open' 'on' 'Sunday'];

我想挑出重要的词,比如“Andy、Murray、David、Ferrer、Sunday、Open、Final”等,但我对英语技术方面的了解有限,所以我不知道应该忽略哪些词。

还有其他从文本中查找标签的好方法可以建议吗?/你知道我应该忽略的单词类型吗?

ps 我希望任何代码都在 c++ 中,但这不是必需的:)

4

1 回答 1

3

信息检索领域的经典方法是使用tf-idf 模型

  • tf 组件表示每个术语在文档/句子中重复的次数 - 越多“越好” - 因为它表示文本中的重要性。
  • idf 组件表示集合中有多少文档中有这个词,这个数字越低 - 词越重要(因为如果文本中出现一个稀有词,它可以帮助你使用这个词来分割这个文档与其他人相比,直觉要好得多——“the”这个词很可能对文档一无所知,并且 idf 值确保它的权重很小)。
于 2013-03-31T14:34:34.597 回答