我正在将一个项目从 solr 转换为 cloudsearch,并且在对文档和网络进行了相当长的搜索后,我找不到解决方法。我希望其他人可以提供帮助。
我无法描述真实的细节,但我能找到的最接近我的问题的例子是抄袭检测之一。想象一下,将一堆已发布的文档加载到 cloudsearch 中,然后将一个业余文档作为查询来查看是否有匹配项。
给定一个索引文档——比如维基百科的霸王龙页面:
与其他暴龙科动物一样,暴龙是一种双足食肉动物,有一个巨大的头骨和一条又长又重的尾巴。
然后是业余文件:
我是肉食动物,我喜欢霸王龙,因为它也是双足肉食动物。
出于对项目很重要的原因,我正在创建有趣单词的分布,而不是使用全文查询,例如:
carnivore: 2
tyrannosaurus: 1
而且我更倾向于在维基百科文章中找到“食肉动物”这个词,而不是“暴龙”。
在 solr 中,我正在使用“^”运算符增强查询,例如“carnivore^2”。
据我所知,cloudsearch 确实提升为“排名表达式”,但我没有发现任何与我的问题类似的东西。
有任何想法吗?