2

我在数据库中有一个 c++ 代码存储库,并希望在 SOLR 中对其进行索引。我应该在 SOLR 中用于索引和稍后查询的最佳令牌分析器是什么?

我尝试了几种不同的标记分析器,并正在考虑设置模式以按空格、句点、其他特殊字符等分隔。

有没有更好的方法来索引这样的代码?

4

1 回答 1

3

我将从一个简单的配置开始,并根据任何特定需求进一步添加:-

<fieldType name="text" class="solr.TextField">
    <analyzer>
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory ... "/>       
        <filter class="solr.LowerCaseFilterFactory"/>    
    </analyzer>
</fieldType>

WhitespaceTokenizerFactory - Whitespace Tokenizer 用于打破空白处的标记
StopFilterFactory - 停止过滤以删除源代码中的常用术语,这些术语将出现在所有文件中。
LowerCaseFilterFactory - 小写使搜索大小写独立。

于 2013-05-29T11:00:01.313 回答