问题标签 [mahout]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache - 确定 Mahout LDA 输出上的文档 ID
我已经成功运行了 mahout lda,并使用命令 mahout ldatopics 显示了输出。
例如,我的主题是科学和体育。那么输出将是:主题 0 篮球,比赛,棒球主题 1 研究,研究,哲学
我现在的问题是如何识别单个文章的组或集群。是否有 ID 号或某种跟踪,以便对于我添加的每篇新文章,它将被分组或添加到特定的集群/主题。
如果我已经有了集群,下一步是什么?
谢谢
mahout - 什么适合我?generateAllGrams() 或 generateCollocations() 对我来说足够了吗?
我正在开发一个基于 wordnet 的文档 summaryr.in 的项目,我需要提取搭配。我尝试尽可能多地进行研究,但由于在我难以理解 CollocDriver.java 的工作原理(在 API 上下文中)之前我没有与 Mahout 合作过
在网上搜索时,我发现了这个: Mahout Collocations
这就是问题所在:我有一个 POSTagged 输入文本。我需要识别其中的搭配。我有 collocdriver.java 代码。现在我需要知道如何使用它?是否使用 generateAllGrams() 方法或仅 generateCollocations() 方法对于我的摘要器中的子任务就足够了..??
最重要的是如何使用它?我提出这个问题是因为我承认,我不太了解 API,
我还得到了collocdriver 的grepcode 版本,这两种实现似乎略有不同..输入是 grepcode 版本的字符串和原始路径对象的形式...
我的问题:输入参数中的配置对象是什么以及如何使用它?源/目标将是字符串(如 grepcode)还是路径(如原始)?输出会是什么?
我对 collocdriver 程序做了一些进一步的研发……我发现它使用了一个序列文件,然后是矢量生成……我想知道这个序列文件/矢量生成是如何工作的……请帮助……
mahout - 如何解决产品推荐问题,例如:用户 __bought__ XXX 也 __viewed__ YYY
我目前正在学习推荐系统,学习了一些关于协同过滤、用户 CF、项目 CF 的知识,很明显使用这些算法来解决以下问题:1)用户买了 XXX 也买了 YYY 2)用户查看了 XXX 也查看了 YYY
我的问题是:如何解决这样的问题:1)用户购买了 XXX 也查看了 YYY 2)用户查看了 XXX 也购买了 YYY ?
更新:刚刚将标题更正为:“用户购买了XXX 也查看了YYY”
hadoop - 在 hadoop 集群上部署 Mahout
我想在 5 台机器的 hadoop 集群中运行 Mahout 的 K-Means 示例。我应该在所有节点中保留哪些 Mahout jar 文件,以便 K-Means 以分布式方式执行。谢谢。
-文基拉姆
mahout - 不同的建议...使用 Mahout
我编写了一个应用程序,当我给它一个推荐的 ID 时,它会产生成功的推荐。但是,当我提出后续请求时,它给了我相同的建议。我希望它返回不同的建议。
谢谢
java - 每次使用 mahout 的不同建议
有谁能够帮我 ?
如果我已经向某个用户推荐了一些项目,并且假设用户对这些推荐的项目不感兴趣,并且他希望看到更多与旧的不同的推荐。
mahout 中是否有任何机制或概念可以帮助我获得新的推荐,而不是已经推荐给用户的旧推荐......
mahout - 我在哪里检查 Mahout 的小丑示例的结果?
运行后:mahout org.apache.mahout.cf.taste.example.jester.JesterRecommenderEvaluatorRunner
不知道在哪里查看结果?
谢谢!
hadoop - 解释 mahout clusterdumper 的输出
我对抓取的页面(超过 25K 文档;个人数据集)进行了聚类测试。我做了一个集群转储:
运行 cluster dumper 后的输出显示 25 个元素 "VL-xxxxx {}" :
如何解释这个输出?
简而言之:我正在寻找属于特定集群的文档 ID。
是什么意思 :
- VL-X ?
- n=yc=[z:z', ...]
- r=[z'':z''', ...]
0:0.017 是否意味着“0”是属于该集群的文档 ID?
我已经在 mahout wiki 页面上阅读了 CL、n、c 和 r 的含义。但是有人可以更好地向我解释一下,或者指向一个更详细解释的资源吗?
抱歉,如果我问一些愚蠢的问题,但我是一个新手,使用 apache mahout 并将它用作我的集群课程作业的一部分。
mysql - Mahout/Hadoop: SQL to SequenceFile
I am starting to use Mahout for clustering, but I am having a hard time trying to convert a sql(mysql) dump to a mahout-compatible SequenceFile. I am using the code above.
SQL Sample
Java
Thanks!
cluster-analysis - Mahout 上的 K-means 返回非独占集群
在我的数据中,我有一个喜欢列表的用户,我已将这些喜欢转储到每个用户的单独文件中,并希望将它们聚集在一起。一切正常,除了输出在多个集群中具有相同的喜好。我的理解是 k-means 应该是排他的。我认为问题可能在于我如何转储数据。在我可以编写自定义标记器之前,我也暂时放弃了所有没有空格的喜欢。这是我正在运行的(来自 ruby 脚本)。
输出列出了每个集群中的“顶级术语”,但是每个集群中都会出现许多类似的词(尽管权重不同)。是clusterdumper的正常输出,我是否需要通过权重找出每个单词所属的簇?
谢谢