0

我正在尝试使用carrot2 API 来聚集日语文档。它抛出这个警告:

org.carrot2.text.linguistic.DefaultTokenizerFactory:日语 (ja) 的分词器不可用。这可能会降低日语内容的聚类质量。

因此,集群过程失败,所有文档都属于“其他主题”集群。

有什么帮助可以解决这个问题吗?

提前致谢。

4

1 回答 1

0

不幸的是,Carrot 2中可用的开源算法不支持日语。添加该常量是为了涵盖未来可能对日语的支持。

或者,您可以尝试使用自定义语言管道运行 Carrot 2 ,Carrot 2 Java API 分发中的UsingCustomLanguageModel示例类显示了如何执行此操作。

于 2015-10-24T20:20:24.970 回答