问题标签 [mahout]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
946 浏览

recommendation-engine - Mahout 关于二进制数据的建议

我是 mahout 的新手。我的目标是对二元用户购买数据产生建议。所以我应用项目相似性模型计算电影镜头数据的前 N ​​个建议,假设 1-3 评级为 0 和 4-5 评级作为 1.然后我尝试使用测试数据中的评级来评估我的建议,但从我的前 20 条建议到测试数据中评价最高的项目几乎没有两三个匹配项,并且对于大多数用户来说没有匹配项。

那么我的建议本质上是完全不好的,还是我需要采取不同的措施来评估我的建议?

请帮我 !提前致谢。

Pranay,二年级,UG 学生。

0 投票
2 回答
1156 浏览

recommendation-engine - Apache Mahout 建议?

您是否实现了 Apache Mahout 推荐引擎?你有什么建议可以分享吗?您知道使用 Mahout 的任何其他网站吗?

谢谢!

0 投票
3 回答
2212 浏览

java - 在 Ruby on Rails 中使用 Apache Mahout

我有一个 ruby​​ on rails 应用程序。我有在应用程序中实施建议的想法。我通过 stackoverflow了解了Apache Mahout 。现在,如果我必须使用 Mahout,我必须做些什么。由于它是一个 Java 库,我不清楚如何在 Ruby on Rails 应用程序中使用它。我有几个 Java 认证,所以用 Java 编码不是问题。我也有在 Heroku 中托管应用程序的想法,这会是一个问题吗?

谢谢

0 投票
1 回答
509 浏览

mahout - 推荐系统数据收集方法

我正在我的应用程序中构建一个推荐系统,我可能会使用 apache mahout,我要收集一个大数据集,它将在一段时间内收集......所以在一些收集它之间哪个最便宜某种日志文件与在数据库中收集并在需要时将其导出

0 投票
4 回答
2078 浏览

java - 一个人需要多少 Java 才能有效地使用 Hadoop 和 Mahout?

我是一名 PHP 开发人员。让我们现在就解决这个问题。但是Hadoop——尤其Mahout—— 激起了我的兴趣。为了使用它们,我已准备好深入研究 Java。

所以从经验丰富的人那里知道,我需要多少 Java 才能有效地使用这些?据我所见,编程映射器/减速器并不需要那么多。但是对于 Mahout,当我查看文档时,我完全不确定自己在看什么。

此外,从我的 PHP 应用程序中获取数据以通过 Hadoop 和 Mahout 在 Java 中进行处理有多难?我无法想象它会那么困难,但我没有足够的经验说。

0 投票
3 回答
2625 浏览

dataset - Apache Mahout 的数据集

我正在寻找可用于实现 Apache Mahout 推荐系统用例的数据集。我只知道GroupLens 研究组的MovieLens 数据集

任何人都知道可用于推荐系统实施的任何其他数据集吗?尽管其他数据集最受欢迎,但我对基于项目的数据集特别感兴趣。

0 投票
3 回答
4851 浏览

java - 从命令行运行 Mahout (CLASSPATH)

使用 Maven 在 Windows 下成功编译 Mahout。

我正在尝试从命令行运行其中一个示例,但我不明白我做错了什么。似乎是一个 CLASSPATH 问题。

假设我想运行 GroupLensRecommenderEvaluatorRunner 示例。我转到其中包含 GroupLensRecommenderEvaluatorRunner.class 文件的文件夹并执行:

它给了我 GroupLensRecommenderEvaluatorRunner 类的 NoClassDefFoundError 异常。

-cp 的路径是否错误?

顺便说一句,对于那些不熟悉 mahout 的人,

是 GroupLensRecommenderEvaluatorRunner 类的包。 文档

多谢你们。

ps - 在问这个问题之前,我首先查看了之前关于 CLASSPATH 的 stackoverflow 问题并遵循了给定的解决方案。

0 投票
1 回答
302 浏览

java - 与当前数据匹配的用户

我有一个数据库,其中包含两种不同类型的用户(Mentors 和 Mentees),我希望第二组(Mentees)能够“搜索”第一组(Mentors)中与他们的个人资料相匹配的人。导师和学员都可以随时进入并更改其个人资料中的项目。

目前,我正在使用 Apache Mahout 进行用户匹配 (recommender.mostSimilarIDs())。我遇到的问题是每次有人搜索时我都必须重新加载用户数据。就其本身而言,这并不需要那么长时间,但是当 Mahout 处理数据时,它似乎需要很长时间(3000 名导师和 3000 名学员需要 14 分钟)。处理后,匹配只需几秒钟。我还在处理过程中一遍又一遍地收到相同的 INFO 消息(“已处理 2248 个用户”),而查看代码显示该消息只应每 10000 个用户输出一次。

我正在使用 GenericUserBasedRecommender 和 GenericDataModel,以及 NearestNUserNeighborhood、AveragingPreferenceInferrer 和 PearsonCorrelationSimilarity。我从数据库中加载指导者,将指导者添加到 POJO 列表中,并将它们转换为 FastByIDMap 以提供给 DataModel。

有没有更好的方法来做到这一点?产品负责人需要为每次搜索提供最新的数据。

0 投票
1 回答
942 浏览

solr - 从 mahout 聚类的结果中识别文档

我正在使用 mahout 对使用 solr 索引的文本文档进行聚类。

我已经使用文档中的“文本”字段来形成向量。然后我使用 mahout 中的 k-means 驱动程序进行聚类,然后使用 clusterdumper 实用程序转储结果。

我很难理解自卸车的输出结果。我可以看到这些集群中的术语向量形成的集群。但是如何从这些集群中提取文档。我希望结果是出现在不同集群中的输入文档。

0 投票
1 回答
962 浏览

java - 帮助在 hadoop 上运行 Taste Grouplens 演示

我正在尝试构建一个基于协作过滤的推荐系统作为学术项目的一部分。我认为 Mahout 项目有很大的潜力,我想使用它。

我在我的 ubuntu 10.1 上安装了 Mahout、hadoop 和 Java。已检查 Hadoop 和 Java 可以一起正常工作。(运行 Hadoop 字数统计示例作业)

我正在按照本教程运行包含 100 万个数据集的“Taste Grouplens 示例”。我输入了以下内容

然后我按照教程的hadoop集群部分运行它我在examples目录中安装了mvn,它在examples/target/目录中生成了jar文件,然后我继续下一部分,我必须在上面运行作业hadoop 我输入了以下内容:

我收到以下错误:

我不太确定用什么代替我不太确定我是否正确部署了 jar 文件,有人有什么想法吗?