我想调整胡萝卜2 集群以避免标签,这些标签不以介词开头——对于俄语来说,在语法案例(非主格)中看到一个单词并且没有介词看起来很奇怪。
集群是使用 Apache Solr 完成的。
例子:
Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).
我尝试了两个独立的东西:
- 配置 core/clustering/carrot2/stopwords.ru - 并从那里删除问题中的介词
- 解压缩carrot2-mini-3.9.0.jar,从stopwords.ru 中删除条目并重新打包到jar 中。
以上都对集群标签没有任何影响。还有其他明显的尝试吗?或者,也许,完全改变调整的方法?
谢谢!