3

如何有效地从字符串中提取具有相关性的关键字?我的关键字列表是预定义的。例如,在一篇关于 Michelle Obama 的文章中也提到了 Barack Obama,我想提取Michelle ObamaBarack Obama让关键字Michelle Obama获得更高的相关性值(两者Michelle ObamaBarack Obama出现在我的关键字列表中)。

检查字符串中每个关键字的出现次数似乎不是很有效。我的应用程序是用 PHP 开发的,但如果我能有效地做到这一点,任何语言都可以。

我尝试了 OpenCalais,但它没有检测到我的大部分关键字。是否可以使用 Lucene 提取关键字?

4

1 回答 1

1

apache lucene 包将适合您。但是,如果您有标题和段落,则可以过滤掉停用词,为标题中的单词赋予更高的排名,然后在段落中匹配它们或它们的形式。您可以查阅一些文本摘要文章以更好地自己编程。

于 2011-03-01T09:20:35.967 回答