0

我正在使用 Mahout 的 ItemSimilarityJob 来计算项目与输入 .csv 文件的相似性,如下所示:

user_id(numbers only), song_id(numbers only), listens(numbers only)

当我使用这些参数运行 ItemSimilarityJob

$MAHOUT_HOME/bin/mahout org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob --input inputcsv/ --output outputcsv --similarityClassname SIMILARITY_PEARSON_CORRELATION --tempDir tempcsv --booleanData true

我在 music/csvoutput 目录中得到一个空白的 part-r-00000 文件。然而,music/csvtemp 中有很多文件。可能是什么原因?

4

3 回答 3

1

hope my experience and answer helps others, really could have saved me some precious time. You would also want the check the value of the --threshold parameter. Setting it too high (even 0.01) causes Mahout to filter data and eventually generate empty files. In my case it was my random generated data that caused this.

于 2013-06-11T14:39:11.657 回答
1

可能你的输入是你认为的,或者你没有表明你认为你在哪里。通常 --input 是一个完全限定的路径。检查并尝试。或者您的数据太小以至于无法计算相似性。

于 2013-04-28T09:19:30.893 回答
0

mahout org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob -i intro.csv --output outputcsv --similarityClassname SIMILARITY_PEARSON_CORRELATION -m 3 --tempDir tempcsv --threshold 0.7 --booleanData

这将工作使用它

于 2016-05-17T10:48:52.297 回答