问题标签 [mahout]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop、Mahout 实时处理替代方案
我打算在我的项目中使用 hadoop 作为“计算集群”。但是后来我读到 Hadoop 不适用于实时系统,因为与作业开始相关的开销。我正在寻找可以以这种方式使用的解决方案 - 可以轻松扩展到多台机器但不需要太多输入数据的作业。更重要的是,我想使用机器学习工作,例如实时使用在神经网络之前创建的。
我可以为此目的使用哪些库/技术?
input - mahout 协同过滤输入二进制数据集
我是新手。
我已经使用了 mahout 的基于项目的算法和对数似然相似性度量。我在过去的帖子中读到,当推荐器处理二进制值(喜欢或不喜欢)时,最好使用对数似然相似性。我还读到 mahout 使用三个值(喜欢、不喜欢、不存在)。所以我对输入数据集文件的格式有点困惑。
输入文件格式必须是这样的吗?
默认情况下的首选项是1?
我想知道是否有办法将不喜欢的信息放入数据集中。
除了输入数据集文件之外,我会是这样的:
userid, itemid, binaryPreference 1, 15, 1.0
2, 35, 0
1、25、1.0……
请帮帮我!提前谢谢!
datamodel - Mahout 的数据模型与 GenericDataModel
我正在使用 Mahout 的推荐引擎,并且在使用 genericdatamodel 对象时遇到了问题。我的问题是,如果我想将一些新的用户数据添加到现有的数据模型中,这是唯一的方法,通过再次读取所有数据来重建新的数据模型。
目前,我们的数据在缓存中。
google-app-engine - 在 Google 应用引擎上部署 mahout
是否可以在 Google 应用引擎上部署 apache mahout 推荐算法及其 csv、txt 或 xml 文件。
如果真的可能,那么我们如何部署..?
neo4j - 使用 Neo4j 作为 Mahout 数据存储
有没有人成功地将 Apache Mahout 与 Neo4j 集成为数据存储?如果有,涉及多少作品,表演如何?
mahout - Apache Mahout + Pearson 相关性忽略对每个项目具有相同偏好的用户
我将 Mahout 与 Pearson Correlation 算法结合使用,根据他们对多个项目的偏好来比较和查找相似用户。我遇到的问题是 Mahout 和/或 Pearson 忽略了为每个项目选择相同偏好的用户。有谁知道是否有办法将 Mahout 配置为不忽略为每个项目选择相同偏好值的人。
mahout - 使用 kmeans 对数据进行聚类时出错
我正在尝试对此处显示的输入数据执行 k 均值算法的聚类: https ://cwiki.apache.org/MAHOUT/clustering-of-synthetic-control-data.html 但是,当地图缩减作业即将进行时发生我得到错误
有人可以告诉我如何纠正这个问题。这真的意味着很多。谢谢你的时间。
java - 是否可以在没有 hadoop 依赖的情况下使用 apache mahout?
是否可以在不依赖 Hadoop 的情况下使用 Apache mahout。
我想在一台计算机上使用 mahout 算法,只在我的 Java 项目中包含 mahout 库,但我根本不想使用 hadoop,因为无论如何我都将在单个节点上运行。
那可能吗?
mahout - Apache Mahout + 欧几里得距离:意外结果
给定以下用户偏好数据集,我使用 Mahout 的 EuclideanDistanceSimilarity 类对几个用户的相似度进行排名。偏好的范围目前是从 1 到 5 的所有整数(包括 1 到 5)。但是我可以控制规模,所以如果有帮助的话可以改变。
当我运行以下测试代码时,我得到了意想不到的结果,我将其添加到此处找到的测试类中:http: //www.massapi.com/source/mahout-distribution-0.4/core/src/test/java/ org/apache/mahout/cf/taste/impl/similarity/EuclideanDistanceSimilarityTest.java.html
它产生以下结果:
有人可以帮我理解我在这里做错了什么吗?显然,用户 1 的偏好与用户 3 和 5 的偏好不同,那么为什么我的相似度为 1.0?
如果 Euclidean 不起作用,我愿意使用不同的算法,但是 Pearson 对我不起作用,因为我需要处理为每个项目提交相同偏好的用户,并且我不想纠正“等级膨胀”。
push-notification - 推送信息传递的推荐引擎
我想开发一个涉及推送信息传递推荐引擎的系统。我已经看到很多关于使用某些引擎的解释,例如 Mahout Taste 和 Duine。然而,通过使用它们,推荐项目是在包含用户 ID 的输入发生后获得的。因此,此类引擎似乎仅适用于使用来自用户的拉取请求的 Web 应用程序/服务。
但是通过使用推送消息,我希望我的服务器主动向某些基于推荐算法的特定用户/客户直接发送推荐消息,相关。一旦数据库中有新项目(产品/内容)可用,就会执行交付过程。
我的问题是,是否可以/推荐使用现有的引擎,如 Mahout 或 Duine?为了做到这一点,什么算法是好的?