1

有谁知道 Apache Mahout 是否适用于西班牙语文本?我需要对西班牙语的报纸文章进行一些聚类,并且没有很多工具可以做到这一点。我认为 Mahout 是一个很酷的框架来做这件事,但是它在西班牙语文本上工作好吗?

4

1 回答 1

0

为什么不?您可以使用脚本seq2sparse命令bin/mahout并使用选项指定相应的 Lucene 分析器 ( org.apache.lucene.analysis.es.SpanishAnalyzer) -a。参见 Mahout in Action 一书的第 8 章(第 199-200 页...)。

除此之外,您还可以使用现有的分析器编写自己的分析器。本书包含大量示例,您可以在存储库中找到源代码。

于 2012-12-07T07:31:48.307 回答