0

我创建了我的术语向量,如下所述

~/Scripts/Mahout/trunk/bin/mahout seqdirectory --input /home/ben/Scripts/eipi/files --output /home/ben/Scripts/eipi/mahout_out -chunk 1
~/Scripts/Mahout/trunk/bin/mahout seq2sparse -i /home/ben/Scripts/eipi/mahout_out -o /home/ben/Scripts/eipi/termvecs -wt tf -seq

然后我跑

~/Scripts/Mahout/trunk/bin/mahout lda -i /home/ben/Scripts/eipi/termvecs -o /home/ben/Scripts/eipi/lda_working -k 2 -v 100

我得到:

MAHOUT-JOB:/home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 11/09/04 16:28:59 INFO common.AbstractJob:命令行参数:{ --endPhase=2147483647, --input=/home/ben/Scripts/eipi/termvecs, --maxIter=-1, --numTopics=2, --numWords=100, --output=/home/ben/Scripts /eipi/lda_working,--startPhase=0,--tempDir=temp,--topicSmoothing=-1.0} 11/09/04 16:29:00 信息 lda.LDADriver:LDA 迭代 1 11/09/04 16:29 :01 INFO input.FileInputFormat:要处理的总输入路径:4 11/09/04 16:29:01 INFO mapred.JobClient:清理暂存区文件:/tmp/hadoop-ben/mapred/staging/ben692167368/。 staging/job_local_0001 线程“主”java.io.FileNotFoundException 中的异常:文件文件:/home/ben/Scripts/eipi/termvecs/tokenized-documents/data 不存在。在 org.apache.hadoop.fs.RawLocalFileSystem。

没错,那个文件不存在。我应该如何创建它?

4

1 回答 1

0

向量可能是空的,因为它们的创建可能存在问题。检查您的矢量是否在其文件夹中成功创建(文件大小不为 0 字节)。如果您的输入文件夹缺少某些文件,则可能会发生此错误。在这种情况下,这两个步骤将起作用,尽管不会创建有效的输出。

于 2012-06-28T06:29:20.160 回答