我在数据库中有一个 c++ 代码存储库,并希望在 SOLR 中对其进行索引。我应该在 SOLR 中用于索引和稍后查询的最佳令牌分析器是什么?
我尝试了几种不同的标记分析器,并正在考虑设置模式以按空格、句点、其他特殊字符等分隔。
有没有更好的方法来索引这样的代码?
我在数据库中有一个 c++ 代码存储库,并希望在 SOLR 中对其进行索引。我应该在 SOLR 中用于索引和稍后查询的最佳令牌分析器是什么?
我尝试了几种不同的标记分析器,并正在考虑设置模式以按空格、句点、其他特殊字符等分隔。
有没有更好的方法来索引这样的代码?
我将从一个简单的配置开始,并根据任何特定需求进一步添加:-
<fieldType name="text" class="solr.TextField">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.StopFilterFactory ... "/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
WhitespaceTokenizerFactory - Whitespace Tokenizer 用于打破空白处的标记
StopFilterFactory - 停止过滤以删除源代码中的常用术语,这些术语将出现在所有文件中。
LowerCaseFilterFactory - 小写使搜索大小写独立。