api - 胡萝卜2 api不支持日语

Question

我正在尝试使用carrot2 API 来聚集日语文档。它抛出这个警告：

org.carrot2.text.linguistic.DefaultTokenizerFactory：日语 (ja) 的分词器不可用。这可能会降低日语内容的聚类质量。

因此，集群过程失败，所有文档都属于“其他主题”集群。

有什么帮助可以解决这个问题吗？

提前致谢。

score 0 · Accepted Answer

^{不幸的是，Carrot 2}中可用的开源算法不支持日语。添加该常量是为了涵盖未来可能对日语的支持。

或者，您可以尝试使用自定义语言管道运行 Carrot ^{2 ，Carrot}^{2 Java API 分发中的}UsingCustomLanguageModel示例类显示了如何执行此操作。

1 回答 1