如何有效地从字符串中提取具有相关性的关键字?我的关键字列表是预定义的。例如,在一篇关于 Michelle Obama 的文章中也提到了 Barack Obama,我想提取Michelle Obama
并Barack Obama
让关键字Michelle Obama
获得更高的相关性值(两者Michelle Obama
都Barack Obama
出现在我的关键字列表中)。
检查字符串中每个关键字的出现次数似乎不是很有效。我的应用程序是用 PHP 开发的,但如果我能有效地做到这一点,任何语言都可以。
我尝试了 OpenCalais,但它没有检测到我的大部分关键字。是否可以使用 Lucene 提取关键字?