有谁知道 Apache Mahout 是否适用于西班牙语文本?我需要对西班牙语的报纸文章进行一些聚类,并且没有很多工具可以做到这一点。我认为 Mahout 是一个很酷的框架来做这件事,但是它在西班牙语文本上工作好吗?
问问题
79 次
为什么不?您可以使用脚本seq2sparse
命令bin/mahout
并使用选项指定相应的 Lucene 分析器 ( org.apache.lucene.analysis.es.SpanishAnalyzer
) -a
。参见 Mahout in Action 一书的第 8 章(第 199-200 页...)。
除此之外,您还可以使用现有的分析器编写自己的分析器。本书包含大量示例,您可以在存储库中找到源代码。