java - 卢森。为文本中的每个单词索引几个标记

Question

我正在使用带有SpanishAnalyzer的 lucene 3.5 （它本身使用 SpanishStemmer和StandardTokenizer）。
当 SpanishAnalyzer 索引包含单词（例如）“claramente”和“claro”的文档时，它们都将被索引为“clar”。
这种行为可以理解并且对我的需求很有用，今天在查询之前，我使用分析器的tokenStream+incrementToken()来获取我的搜索词的标记并针对索引文档进行搜索。我没有使用 QueryParser 而是在代码中构建 lucene 查询对象。
但是我希望能够搜索确切的单词（在此示例中为 claro），而不会失去西班牙语分析器的形态能力。
我可以跳过上面的步骤（tokenStream）并直接搜索“claro”，但它不会被找到，因为它被索引为“clar”。
此外，我不想使用 2 个不同的分析器对该字段进行两次索引，因为我需要能够使用PhraseQuery或SpanNearQuery包含一个确切的单词和一个常规术语（形态学）。
所以……我要说到点子上了……我想修改 Tokenizer 或 Stemmer 或 Filter (?) 所以在索引时间它将为每个单词索引 2 个标记，词干一个和原始一个，在这种情况下“claro " 和 "clar" 以及以后查询时，我可以选择是使用确切的单词还是词干标记。
我需要帮助了解如何（以及在哪里）我可以做到这一点，我想编辑应该在 Stemmer 的某个地方完成。

顺便说一句，我对希伯来语分析器的操作完全相同，它在使用时为文本中的每个单词返回几个标记incrementToken()（但我没有源代码）

score 3 · Accepted Answer

您需要一个每个位置有多个标记的索引，因为您想搜索带有词干标记和非词干（=原始）标记的短语。我会回答 5.3 版，但 3.5 版并没有太大不同。

看看solr中ReversedWildcardFilter的源代码。您将在每个令牌上看到两个步骤：

用原始令牌存储当前状态。因此，第一次调用incrementToken() -method 获得了词干标记，第二次调用获得了原始标记（具有相同的位置）
选择“markerChar”作为词干标记的前缀。因此，在搜索时，您可以决定是使用词干标记还是原始标记进行搜索。

对于您的 SpanishAnalyzer，这将意味着例如以下内容：

SpanishAnalyzer 的核心是 SpanishLightStemFilter。SpanishLightStemFilter 仅使用!KeywordAttribute.isKeyword()来提取 Token 。因此，对于索引时间，在 SpanishAnalyzer 中插入一个 KeywordRepeatFilter 并用前缀标记词干标记。

score 0 · Accepted Answer

有一个令牌过滤器可以很容易地实现这一点，KeywordRepeatFilter（SpanishLightStemFilter 确实尊重关键字属性）。只需将其添加到您的分析链中，就在 Stemmer 之前。对于 SpanishAnalyzer，该createComponents方法如下所示：

@Override
protected TokenStreamComponents createComponents(String fieldName) {
    final Tokenizer source;
    if (getVersion().onOrAfter(Version.LUCENE_4_7_0)) {
        source = new StandardTokenizer();
    } else {
        source = new StandardTokenizer40();
    }
    TokenStream result = new StandardFilter(source);
    result = new LowerCaseFilter(result);
    result = new StopFilter(result, stopwords);
    if(!stemExclusionSet.isEmpty())
        result = new SetKeywordMarkerFilter(result, stemExclusionSet);
    result = new KeywordRepeatFilter(result);
    result = new SpanishLightStemFilter(result);
    return new TokenStreamComponents(source, result);
}

这将不允许您仅显式搜索未提取词条，但会将原始词条保持在与词干相同的位置，从而可以轻松地将它们分解为短语查询。如果您确实需要仅显式搜索词干或非词干术语，那么在单独的字段中建立索引确实是更好的方法。

java - 卢森。为文本中的每个单词索引几个标记

2 回答 2

Related

Reference