1

我想调整胡萝卜2 集群以避免标签,这些标签不以介词开头——对于俄语来说,在语法案例(非主格)中看到一个单词并且没有介词看起来很奇怪。

集群是使用 Apache Solr 完成的。

例子:

Минске ([in] Minsk, missing preposition В in the beginning).
Самом Деле ([in] fact, missing preposition На in the beginning).

我尝试了两个独立的东西:

  1. 配置 core/clustering/carrot2/stopwords.ru - 并从那里删除问题中的介词
  2. 解压缩carrot2-mini-3.9.0.jar,从stopwords.ru 中删除条目并重新打包到jar 中。

以上都对集群标签没有任何影响。还有其他明显的尝试吗?或者,也许,完全改变调整的方法?

谢谢!

4

1 回答 1

1

从停用词文件中删除介词应该可以解决问题。使用修改后的停用词文件,由于数据的统计,介词仍然可能丢失 - 如果 Минске 的某些出现以“in”为前缀,而另一些则没有,算法可能会选择较短的版本(没有介词)作为越有代表性。

中的标签core/clustering/carrot2/stopwords.ru应优先于carrot2-mini-3.9.0.jar 中包含的标签。

对于 Lingo 聚类算法,没有直接的方法可以直接影响每个标签的单词数,但是您可以尝试增加短语标签提升和降低截断标签阈值

聚类算法参数的完整列表在Carrot2 文档中。您可以将参数覆盖作为Solr 结果集群请求的一部分传递。

于 2018-10-16T08:08:06.227 回答