我创建了我的术语向量,如下所述:
~/Scripts/Mahout/trunk/bin/mahout seqdirectory --input /home/ben/Scripts/eipi/files --output /home/ben/Scripts/eipi/mahout_out -chunk 1
~/Scripts/Mahout/trunk/bin/mahout seq2sparse -i /home/ben/Scripts/eipi/mahout_out -o /home/ben/Scripts/eipi/termvecs -wt tf -seq
然后我跑
~/Scripts/Mahout/trunk/bin/mahout lda -i /home/ben/Scripts/eipi/termvecs -o /home/ben/Scripts/eipi/lda_working -k 2 -v 100
我得到:
MAHOUT-JOB:/home/ben/Scripts/Mahout/trunk/examples/target/mahout-examples-0.6-SNAPSHOT-job.jar 11/09/04 16:28:59 INFO common.AbstractJob:命令行参数:{ --endPhase=2147483647, --input=/home/ben/Scripts/eipi/termvecs, --maxIter=-1, --numTopics=2, --numWords=100, --output=/home/ben/Scripts /eipi/lda_working,--startPhase=0,--tempDir=temp,--topicSmoothing=-1.0} 11/09/04 16:29:00 信息 lda.LDADriver:LDA 迭代 1 11/09/04 16:29 :01 INFO input.FileInputFormat:要处理的总输入路径:4 11/09/04 16:29:01 INFO mapred.JobClient:清理暂存区文件:/tmp/hadoop-ben/mapred/staging/ben692167368/。 staging/job_local_0001 线程“主”java.io.FileNotFoundException 中的异常:文件文件:/home/ben/Scripts/eipi/termvecs/tokenized-documents/data 不存在。在 org.apache.hadoop.fs.RawLocalFileSystem。
没错,那个文件不存在。我应该如何创建它?