我正在编写一个自定义 Solr 组件。在组件代码中,我需要使用停用词列表。我可以在组件代码中对停用词列表进行硬编码:
Set<String> stopwords = new HashSet<String>();
stopwords.add("a");
stopwords.add("the");
...
自然,我更喜欢使用停用词文件来初始化停用词列表,而不是对停用词列表进行硬编码Set<String>
。我创建了这样一个停用词文件。我的问题是:
- 我应该把文件放在哪里?(我发现几个位置包含一个
stopwords.txt
文件的位置。 - 如何
Set<String>
使用文件中的术语初始化停用词?特别是,Solr 是否提供了一种机制,允许我将文件中存储的停用词作为 aSet<String>
或 a获取List<String>
?