我正在尝试使用 Mahout 在 Amazon EMR 上运行集群作业。我有一个在 S3 上上传的 solr 索引,我想使用 mahouts lucene.vector 对其进行矢量化。(这是工作流程中的第一步)
该步骤的参数为:
- 罐子:s3n://mahout-bucket/jars/mahout-core-0.6-job.jar
- MainClass:org.apache.mahout.driver.MahoutDriver
- Args: lucene.vector --dir s3n://mahout-input/solr_index/ --field name --dictOut /test/solr-dict-out/dict.txt --output /test/solr-vectors-out/vectors
日志中的错误是:
选择了未知程序“lucene.vector”。
我已经在本地使用 hadoop 和 Mahout 完成了相同的过程,并且效果很好。我应该如何在 EMR 上调用 lucene.vector 函数?