我正在尝试使用carrot2 API 来聚集日语文档。它抛出这个警告:
org.carrot2.text.linguistic.DefaultTokenizerFactory:日语 (ja) 的分词器不可用。这可能会降低日语内容的聚类质量。
因此,集群过程失败,所有文档都属于“其他主题”集群。
有什么帮助可以解决这个问题吗?
提前致谢。
不幸的是,Carrot 2中可用的开源算法不支持日语。添加该常量是为了涵盖未来可能对日语的支持。
或者,您可以尝试使用自定义语言管道运行 Carrot 2 ,Carrot 2 Java API 分发中的UsingCustomLanguageModel示例类显示了如何执行此操作。