问题标签 [mahout]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
720 浏览

apache - 确定 Mahout LDA 输出上的文档 ID

我已经成功运行了 mahout lda,并使用命令 mahout ldatopics 显示了输出。

例如,我的主题是科学和体育。那么输出将是:主题 0 篮球,比赛,棒球主题 1 研究,研究,哲学

我现在的问题是如何识别单个文章的组或集群。是否有 ID 号或某种跟踪,以便对于我添加的每篇新文章,它将被分组或添加到特定的集群/主题。

如果我已经有了集群,下一步是什么?

谢谢

0 投票
1 回答
717 浏览

mahout - 什么适合我?generateAllGrams() 或 generateCollocations() 对我来说足够了吗?

我正在开发一个基于 wordnet 的文档 summaryr.in 的项目,我需要提取搭配。我尝试尽可能多地进行研究,但由于在我难以理解 CollocDriver.java 的工作原理(在 API 上下文中)之前我没有与 Mahout 合作过

在网上搜索时,我发现了这个: Mahout Collocations

这就是问题所在:我有一个 POSTagged 输入文本。我需要识别其中的搭配。我有 collocdriver.java 代码。现在我需要知道如何使用它?是否使用 generateAllGrams() 方法或仅 generateCollocations() 方法对于我的摘要器中的子任务就足够了..??

最重要的是如何使用它?我提出这个问题是因为我承认,我不太了解 API,

我还得到了collocdriver 的grepcode 版本,这两种实现似乎略有不同..输入是 grepcode 版本的字符串和原始路径对象的形式...

我的问题:输入参数中的配置对象是什么以及如何使用它?源/目标将是字符串(如 grepcode)还是路径(如原始)?输出会是什么?

我对 collocdriver 程序做了一些进一步的研发……我发现它使用了一个序列文件,然后是矢量生成……我想知道这个序列文件/矢量生成是如何工作的……请帮助……

0 投票
4 回答
1753 浏览

mahout - 如何解决产品推荐问题,例如:用户 __bought__ XXX 也 __viewed__ YYY

我目前正在学习推荐系统,学习了一些关于协同过滤、用户 CF、项目 CF 的知识,很明显使用这些算法来解决以下问题:1)用户买了 XXX 也买了 YYY 2)用户查看了 XXX 也查看了 YYY

我的问题是:如何解决这样的问题:1)用户购买了 XXX 也查看了 YYY 2)用户查看了 XXX 也购买了 YYY ?

更新:刚刚将标题更正为:“用户购买了XXX 也查看了YYY”

0 投票
1 回答
1334 浏览

hadoop - 在 hadoop 集群上部署 Mahout

我想在 5 台机器的 hadoop 集群中运行 Mahout 的 K-Means 示例。我应该在所有节点中保留哪些 Mahout jar 文件,以便 K-Means 以分布式方式执行。谢谢。

-文基拉姆

0 投票
1 回答
438 浏览

mahout - 不同的建议...使用 Mahout

我编写了一个应用程序,当我给它一个推荐的 ID 时,它会产生成功的推荐。但是,当我提出后续请求时,它给了我相同的建议。我希望它返回不同的建议。

谢谢

0 投票
2 回答
182 浏览

java - 每次使用 mahout 的不同建议

有谁能够帮我 ?

如果我已经向某个用户推荐了一些项目,并且假设用户对这些推荐的项目不感兴趣,并且他希望看到更多与旧的不同的推荐。

mahout 中是否有任何机制或概念可以帮助我获得新的推荐,而不是已经推荐给用户的旧推荐......

0 投票
1 回答
446 浏览

mahout - 我在哪里检查 Mahout 的小丑示例的结果?

运行后:mahout org.apache.mahout.cf.taste.example.jester.JesterRecommenderEvaluatorRunner

不知道在哪里查看结果?

谢谢!

0 投票
4 回答
5682 浏览

hadoop - 解释 mahout clusterdumper 的输出

我对抓取的页面(超过 25K 文档;个人数据集)进行了聚类测试。我做了一个集群转储:

运行 cluster dumper 后的输出显示 25 个元素 "VL-xxxxx {}" :

如何解释这个输出?

简而言之:我正在寻找属于特定集群的文档 ID。

是什么意思 :

  • VL-X ?
  • n=yc=[z:z', ...]
  • r=[z'':z''', ...]

0:0.017 是否意味着“0”是属于该集群的文档 ID?

我已经在 mahout wiki 页面上阅读了 CL、n、c 和 r 的含义。但是有人可以更好地向我解释一下,或者指向一个更详细解释的资源吗?

抱歉,如果我问一些愚蠢的问题,但我是一个新手,使用 apache mahout 并将它用作我的集群课程作业的一部分。

0 投票
0 回答
788 浏览

mysql - Mahout/Hadoop: SQL to SequenceFile

I am starting to use Mahout for clustering, but I am having a hard time trying to convert a sql(mysql) dump to a mahout-compatible SequenceFile. I am using the code above.

SQL Sample

Java

Thanks!

0 投票
1 回答
723 浏览

cluster-analysis - Mahout 上的 K-means 返回非独占集群

在我的数据中,我有一个喜欢列表的用户,我已将这些喜欢转储到每个用户的单独文件中,并希望将它们聚集在一起。一切正常,除了输出在多个集群中具有相同的喜好。我的理解是 k-means 应该是排他的。我认为问题可能在于我如何转储数据。在我可以编写自定义标记器之前,我也暂时放弃了所有没有空格的喜欢。这是我正在运行的(来自 ruby​​ 脚本)。

输出列出了每个集群中的“顶级术语”,但是每个集群中都会出现许多类似的词(尽管权重不同)。是clusterdumper的正常输出,我是否需要通过权重找出每个单词所属的簇?

谢谢