3

我正在使用Sphinx为网站提供搜索,并且在返回相关结果时遇到了一些障碍。

为了让我的问题简单,让我们假设我有两个字段,@title 和@body,它们的权重分别为 100 和 15。当我搜索像单词 ' in ' 这样的小词时,我希望它对该搜索词的完全匹配排名更高,然后检查与 ' in*|*in|*in* ' 的匹配并将它们排名略低。有没有办法让您的搜索具有这种类型的特异性?

' in ' 的示例结果:

  1. 印度菜
  2. 中间
  3. 关于拉丁文的文件

一些相关设置是:

sphinx.conf中:

morphology              = stem_en
charset_type            = utf-8
min_word_len            = 2
min_prefix_len          = 0
min_infix_len           = 2
enable_star             = 1

search.php中

$sp->SetMatchMode( SPH_MATCH_EXTENDED2 );
$sp->SetRankingMode( SPH_RANK_PROXIMITY_BM25 );
$sp->SetFieldWeights ( array('title' => 100, 'body' => 15) );

另外,作为旁注:我也遇到过部分匹配项甚至没有出现在搜索结果中的情况。例如,我搜索了Cow,但Cowboy没有出现在结果中。我还搜索了CowbCowbo,直到我输入Cowboy才收到预期的结果。有什么想法吗?


这个问题与之前的 SO question相同,但我希望我已经就我的问题以及我试图保证解决方案的事情提供了更多细节。

4

2 回答 2

3

从形态上看,Cow 与 Cowboy 无关。

您可以通过两种方式解决它:

  1. 使用带有 Cow > Cowboy 的 wordforms 文件
  2. 启用星号后,您可以将查询从“Cow”更改为“Cow*”,这将找到所有以“Cow”开头的单词。

关于“in”和“ in ”的不同排名我可以建议在索引中有两个body字段,比如说:body和body_star,body字段的内容相同。

在 search.php 中

$sp->SetRankingMode( SPH_RANK_PROXIMITY_BM25 );
$sp->SetMatchingMode( SPH_MATCH_EXTENDED2 );
$sp->SetFieldWeights ( array('title' => 20, 'body' => 15, 'body_start' => 5) );
$sp->Query("@body in @body_star *in* @title in");

这应该可以解决问题。

于 2011-08-27T14:03:50.847 回答
2

您也可以在配置http://sphinxsearch.com/docs/1.10/conf-expand-keywords.html中设置 expand_keywords 选项, 并将排名模式设置为 SPH_RANK_SPH04 http://sphinxsearch.com/blog/2010/08/17/狮身人面像相关性排名如何工作/

于 2011-08-31T08:14:08.043 回答