问题标签 [mahout]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1181 问题

0 投票

1 回答

720 浏览

apache - 确定 Mahout LDA 输出上的文档 ID

我已经成功运行了 mahout lda，并使用命令 mahout ldatopics 显示了输出。

例如，我的主题是科学和体育。那么输出将是：主题 0 篮球，比赛，棒球主题 1 研究，研究，哲学

我现在的问题是如何识别单个文章的组或集群。是否有 ID 号或某种跟踪，以便对于我添加的每篇新文章，它将被分组或添加到特定的集群/主题。

如果我已经有了集群，下一步是什么？

谢谢

2011-02-25T07:47:29.867

0 投票

1 回答

717 浏览

mahout - 什么适合我？generateAllGrams() 或 generateCollocations() 对我来说足够了吗？

我正在开发一个基于 wordnet 的文档 summaryr.in 的项目，我需要提取搭配。我尝试尽可能多地进行研究，但由于在我难以理解 CollocDriver.java 的工作原理（在 API 上下文中）之前我没有与 Mahout 合作过

在网上搜索时，我发现了这个： Mahout Collocations

这就是问题所在：我有一个 POSTagged 输入文本。我需要识别其中的搭配。我有 collocdriver.java 代码。现在我需要知道如何使用它？是否使用 generateAllGrams() 方法或仅 generateCollocations() 方法对于我的摘要器中的子任务就足够了..??

最重要的是如何使用它？我提出这个问题是因为我承认，我不太了解 API，

我还得到了collocdriver 的grepcode 版本，这两种实现似乎略有不同..输入是 grepcode 版本的字符串和原始路径对象的形式...

我的问题：输入参数中的配置对象是什么以及如何使用它？源/目标将是字符串（如 grepcode）还是路径（如原始）？输出会是什么？

我对 collocdriver 程序做了一些进一步的研发……我发现它使用了一个序列文件，然后是矢量生成……我想知道这个序列文件/矢量生成是如何工作的……请帮助……

mahout summarization

2011-03-14T07:08:25.800

0 投票

4 回答

1753 浏览

mahout - 如何解决产品推荐问题，例如：用户 bought XXX 也 viewed YYY

我目前正在学习推荐系统，学习了一些关于协同过滤、用户 CF、项目 CF 的知识，很明显使用这些算法来解决以下问题：1）用户买了 XXX 也买了 YYY 2）用户查看了 XXX 也查看了 YYY

我的问题是：如何解决这样的问题：1）用户购买了 XXX 也查看了 YYY 2）用户查看了 XXX 也购买了 YYY ？

更新：刚刚将标题更正为：“用户购买了XXX 也查看了YYY”

mahout recommendation-engine

2011-03-29T03:38:29.690

0 投票

1 回答

1334 浏览

hadoop - 在 hadoop 集群上部署 Mahout

我想在 5 台机器的 hadoop 集群中运行 Mahout 的 K-Means 示例。我应该在所有节点中保留哪些 Mahout jar 文件，以便 K-Means 以分布式方式执行。谢谢。

-文基拉姆

hadoop cluster-analysis k-means mahout

2011-04-15T11:59:49.123

0 投票

1 回答

438 浏览

mahout - 不同的建议...使用 Mahout

我编写了一个应用程序，当我给它一个推荐的 ID 时，它会产生成功的推荐。但是，当我提出后续请求时，它给了我相同的建议。我希望它返回不同的建议。

谢谢

mahout

2011-04-20T10:11:09.843

0 投票

2 回答

182 浏览

java - 每次使用 mahout 的不同建议

有谁能够帮我？

如果我已经向某个用户推荐了一些项目，并且假设用户对这些推荐的项目不感兴趣，并且他希望看到更多与旧的不同的推荐。

mahout 中是否有任何机制或概念可以帮助我获得新的推荐，而不是已经推荐给用户的旧推荐......

java mahout

2011-04-20T12:16:57.117

0 投票

1 回答

446 浏览

mahout - 我在哪里检查 Mahout 的小丑示例的结果？

运行后：mahout org.apache.mahout.cf.taste.example.jester.JesterRecommenderEvaluatorRunner

不知道在哪里查看结果？

谢谢！

mahout collaborative-filtering

2011-04-24T06:54:38.827

0 投票

4 回答

5682 浏览

hadoop - 解释 mahout clusterdumper 的输出

我对抓取的页面（超过 25K 文档；个人数据集）进行了聚类测试。我做了一个集群转储：

运行 cluster dumper 后的输出显示 25 个元素 "VL-xxxxx {}" ：

如何解释这个输出？

简而言之：我正在寻找属于特定集群的文档 ID。

是什么意思：

VL-X ?
n=yc=[z:z', ...]
r=[z'':z''', ...]

0:0.017 是否意味着“0”是属于该集群的文档 ID？

我已经在 mahout wiki 页面上阅读了 CL、n、c 和 r 的含义。但是有人可以更好地向我解释一下，或者指向一个更详细解释的资源吗？

抱歉，如果我问一些愚蠢的问题，但我是一个新手，使用 apache mahout 并将它用作我的集群课程作业的一部分。

hadoop cluster-analysis k-means mahout

2011-04-27T13:52:46.633

0 投票

0 回答

788 浏览

mysql - Mahout/Hadoop: SQL to SequenceFile

I am starting to use Mahout for clustering, but I am having a hard time trying to convert a sql(mysql) dump to a mahout-compatible SequenceFile. I am using the code above.

SQL Sample

Java

Thanks!

mysql hadoop mahout

2011-05-03T04:04:08.483

0 投票

1 回答

723 浏览

cluster-analysis - Mahout 上的 K-means 返回非独占集群

在我的数据中，我有一个喜欢列表的用户，我已将这些喜欢转储到每个用户的单独文件中，并希望将它们聚集在一起。一切正常，除了输出在多个集群中具有相同的喜好。我的理解是 k-means 应该是排他的。我认为问题可能在于我如何转储数据。在我可以编写自定义标记器之前，我也暂时放弃了所有没有空格的喜欢。这是我正在运行的（来自 ruby 脚本）。

输出列出了每个集群中的“顶级术语”，但是每个集群中都会出现许多类似的词（尽管权重不同）。是clusterdumper的正常输出，我是否需要通过权重找出每个单词所属的簇？

谢谢

cluster-analysis k-means mahout

2011-05-14T19:18:42.377

1 2 3 4 5 6 7 8 9 10

问题标签 [mahout]

Reference