hadoop - Mahout LDA 给出 FileNotFound 异常

Question

我创建了我的术语向量，如下所述：

~/Scripts/Mahout/trunk/bin/mahout seqdirectory --input /home/ben/Scripts/eipi/files --output /home/ben/Scripts/eipi/mahout_out -chunk 1
~/Scripts/Mahout/trunk/bin/mahout seq2sparse -i /home/ben/Scripts/eipi/mahout_out -o /home/ben/Scripts/eipi/termvecs -wt tf -seq

然后我跑

~/Scripts/Mahout/trunk/bin/mahout lda -i /home/ben/Scripts/eipi/termvecs -o /home/ben/Scripts/eipi/lda_working -k 2 -v 100

我得到：

MAHOUT-JOB：/home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 11/09/04 16:28:59 INFO common.AbstractJob：命令行参数：{ --endPhase=2147483647, --input=/home/ben/Scripts/eipi/termvecs, --maxIter=-1, --numTopics=2, --numWords=100, --output=/home/ben/Scripts /eipi/lda_working，--startPhase=0，--tempDir=temp，--topicSmoothing=-1.0} 11/09/04 16:29:00 信息 lda.LDADriver：LDA 迭代 1 11/09/04 16:29 ：01 INFO input.FileInputFormat：要处理的总输入路径：4 11/09/04 16:29:01 INFO mapred.JobClient：清理暂存区文件：/tmp/hadoop-ben/mapred/staging/ben692167368/。 staging/job_local_0001 线程“主”java.io.FileNotFoundException 中的异常：文件文件：/home/ben/Scripts/eipi/termvecs/tokenized-documents/data 不存在。在 org.apache.hadoop.fs.RawLocalFileSystem。

没错，那个文件不存在。我应该如何创建它？

score 0 · Accepted Answer

向量可能是空的，因为它们的创建可能存在问题。检查您的矢量是否在其文件夹中成功创建（文件大小不为 0 字节）。如果您的输入文件夹缺少某些文件，则可能会发生此错误。在这种情况下，这两个步骤将起作用，尽管不会创建有效的输出。

hadoop - Mahout LDA 给出 FileNotFound 异常

1 回答 1

Related

Reference