solr - Solr dismax 行为 - 标点符号和空格分割

Question

我有一个 Solr 4.7.0 实例，索引中有 200 000 个文档（文件系统上每个文件一个文档），供多个用户使用。文档由关键字标识，这些关键字被索引并存储在一个名为“signature_1”的字段中。在索引期间，我删除了所有用空格替换的标点符号（感谢 ScriptUpdateProcessor），因此我的关键字在索引和字段 signature_1（字段类型签名）的存储部分中都用空格分隔。

<fieldType name="signature" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
  <analyzer type="index">
    <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="([^a-zA-Z0-9éèàùêâûôîäëöüï])" replacement=" "/>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LimitTokenCountFilterFactory" maxTokenCount="1000" consumeAllTokens="false"/>
    <filter class="solr.ASCIIFoldingFilterFactory"/>
    <!--<filter class="solr.StopFilterFactory" ignoreCase="true" words="lang\stopwords_fr.txt" enablePositionIncrements="true" />-->
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms_chantiers.txt" ignoreCase="true" expand="false"/>
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms_chantiers_secteurs.txt" ignoreCase="true" expand="false"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.SnowballPorterFilterFactory" language="French" />
  </analyzer>
  <analyzer type="query">
    <charFilter class="solr.PatternReplaceCharFilterFactory" pattern="([^a-zA-Z0-9éèàùêâûôîäëöüï])" replacement=" "/>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.ASCIIFoldingFilterFactory"/>
    <!--<filter class="solr.StopFilterFactory" ignoreCase="true" words="lang\stopwords_fr.txt" enablePositionIncrements="true" />-->
    <filter class="solr.SynonymFilterFactory" synonyms="synonyms_chantiers.txt" ignoreCase="true" expand="false"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.SnowballPorterFilterFactory" language="French" />
  </analyzer>
</fieldType>

我希望在查询期间有相同的行为：如果有人搜索

美国广播公司

我希望 Solr 进行以下搜索（使用 OR 运算符，dismax）：

美国广播公司

所以基本上，我只是想让 Solr 在文档的关键字之间搜索，标点符号被删除。

上面的例子运行良好，但在某些情况下它不是这样运行的。查询

公元前

Dismax 将查询拆分为

(+(DisjunctionMaxQuery((signature_1:a)) DisjunctionMaxQuery((signature_1:"b c"))) ())/no_coord

这弄乱了我的结果的相关性（即顺序）。我尝试使用 autoGeneratePhraseQueries="True" 但没有效果。

所以我希望 Dismax 总是在空格和标点符号上分开，或者永远不要这样做（结果是一样的）。知道如何做到这一点（无需创建我的 Java Dismax 类）吗？

以下帖子与我的问题有关：

score 0 · Accepted Answer

我不太清楚您是要A B-C成为短语查询（"A B C"）还是三个单独的术语查询（A B C），但是：

如果您希望它是一个短语查询，只需将整个内容用引号括起来： "A B-C"

如果您希望单独搜索每个术语，只需自己删除标点符号，留下A B C.

查询解析器通常以空格分隔查询子句，而不是标点符号。这与分析无关，它只是查询解析器语法。因此，对于A B-C，您最终会得到两个查询子句A和B-C。当分析开始时，B-C它被分成两个词，因此查询解析器使它成为一个短语查询而不是一个词查询，最终结果看起来像A "B C"

score 0 · Accepted Answer

我终于找到了一个解决方案，它有点“又快又脏”，但它可以工作：在 Velocity 中，我创建了一个 Javascript 函数来编辑 q 字段，这个函数是使用 GET 表单的参数 onsubmit 调用的（它在stackoverflow.xml 中有描述）。 com/questions/5763055/edit-value-of-a-html-input-form-by-javascript）。

但是你需要 Velocity 来解决这个问题，如果你使用的是没有速度的请求处理程序（或更一般地说是 HTML 接口），它就不起作用。

solr - Solr dismax 行为 - 标点符号和空格分割

2 回答 2

Related

Reference