在我的数据库中,我列出了 5000 行(作为关键字)。现在给定一篇文章(甚至可能是 1000 个单词),我想匹配与数据库中的关键字匹配的任何单词。例如,我在 db 中有这些记录(使用逗号提到行):
tv, tv and videos, movie, horror movie, camera, digital camera, canon digital camera
每行都有另一列名为“URL”。我的输入字符串可能是这样的:
我讨厌恐怖电影。佳能发布了一款新的数码相机。到目前为止,我拥有 3 台数码相机......'
从上面的字符串,我需要匹配:
- 针对我存储的关键字恐怖电影的恐怖电影。但我不希望只有电影与电影相匹配,因为恐怖电影关键字在这里更合适。
- 数码相机对存储关键字数码相机
- 数码相机...针对存储的关键字数码相机
(文章中存在粗体词组,斜体词组在数据库中)
对数据库中的每个关键字进行迭代可能是不可能且不切实际的。到目前为止,我了解到 Solr 可能很合适。但我不确定我将如何索引和查询 Solr。为了查询 Solr,我必须提供关键字。但我不知道我的关键字是什么。我只知道整篇文章。关键字可能包含 1 个或多个单词。完全随机,但我最多可以说 5 个字。
匹配后,我需要将文章中的关键字替换为下一列的(URL)值。比如文章恐怖电影中的关键词需要替换为恐怖电影的网址栏。
任何人都可以用正确的路径启发我吗?任何帮助表示赞赏。
提前致谢