问题标签 [mahout]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bayesian - Mahout 中朴素贝叶斯分类器对网站分类的适用性
我目前正在从事一个需要对网站进行分类的数据库(例如 cnn.com = 新闻)的项目。我们只需要广泛的分类 - 我们不需要单独分类每个 URL。我们正在与此类数据库的通常供应商交谈,但我们收到的大多数报价都非常昂贵,而且它们通常会提出令人讨厌的要求——比如必须使用他们的 SDK 来查询数据库。
同时,我也一直在探索自己建立这样一个数据库的可能性。我意识到这不是一个 5 分钟的工作,所以我正在做大量的研究。
通过阅读有关该主题的各种论文,似乎朴素贝叶斯分类器通常是执行此操作的标准方法。然而,许多论文建议改进以提高其在网络分类中的准确性——通常是通过利用其他上下文信息,如超链接、标题标签、多词短语、URL、词频等。
我一直在针对 20 Newsgroup 测试数据集试验 Mahout 的朴素贝叶斯分类器,我可以看到它对网站分类的适用性,但我担心它在我的用例中的准确性。
有人知道在 Mahout 中扩展贝叶斯分类器以考虑其他属性的可行性吗?任何关于从哪里开始的指针将不胜感激。
或者,如果我完全叫错了树,请告诉我!
hadoop - Mahout - 朴素贝叶斯
我尝试使用 mahout 部署 20 个新闻组示例,它似乎工作正常。出于好奇,我想深入研究模型统计信息,
例如:bayes-model 目录包含以下子目录,
培训师-tfIdf 培训师-thetaNormalizer 培训师-权重
其中包含部分 0000 文件。我想阅读文件的内容以便更好地理解,cat 命令似乎不起作用,它打印了一些垃圾。
任何帮助表示赞赏。
谢谢
hadoop - 使用 Mahout 进行持续协同过滤
我正在将 Mahout 评估为协作过滤推荐引擎。到目前为止,它看起来很棒。我们有来自 1200 万不同用户的近 2000 万条布尔推荐。根据Mahout 的 wiki和Sean Owen的一些线程,在这种情况下,一台机器就足够了。因此,我决定使用 MySql 作为数据模型并暂时跳过使用 Hadoop 的开销。
但有一件事让我难以理解,在不从头开始读取整个数据的情况下,不断更新建议的最佳实践是什么?我们每天都有数以万计的新建议。虽然我不希望它被实时处理,但我希望每 15 分钟左右处理一次。
请详细说明基于 Mysql 和基于 Hadoop 的部署的方法。谢谢!
java - 为什么 apache Mahout 频繁模式 minnig 算法只返回 1 个项目集?
我目前正在测试 Apache Mahout 并行频繁模式挖掘。在实际项目中使用它之前,我从一个简单的代码开始,只是为了确保它按我期望的那样工作......
我没有找到包含代码、数据和输出的完整示例。
我目前有一个编译和执行版本(参见下面的 java / scala 代码),但返回的频繁模式只包含一个元组(参见下面的示例输出)。
这是预期的行为吗?我做错什么了?
谢谢你的帮助...
斯卡拉代码:
爪哇代码:
样本输出:
performance - Apache Mahout 性能问题
在过去的几天里,我一直在与 Mahout 合作,试图创建一个推荐引擎。我正在从事的项目有以下数据:
我现在正在试验我们拥有的全套产品的 1/3(即 18M 建议中的 6M)。在我尝试的任何配置中,Mahout 都提供了令人失望的结果。一些建议需要 1.5 秒,而另一些建议需要一分钟以上。我认为推荐的合理时间应该在 100 毫秒左右。
为什么 Mahout 工作这么慢?
我正在使用以下 JVM 参数在 Tomcat 上运行应用程序(即使添加它们并没有太大区别):
以下是我的实验的代码片段:
用户相似度1:
用户相似度2:
物品相似度1:
cluster-analysis - K 表示使用 Mahout 进行聚类
我正在使用此处给出的聚类技术对大型数据集进行聚类,这在 Mahout 示例中给出。但是,当我可视化特定的聚类时,我得到下图。
我真的很难理解这实际上意味着什么并且有几个问题。
- 所有彩色线条表示什么?
- 这么多集群是什么意思?
- 为什么少数区域拥挤,而其他区域不拥挤?
- 为什么几条彩色线相互重叠?
java - mahout 推荐器
Apache Mahout Recommender 文档提到以下内容 :
我不确定上述行中的实际构造是如何完成的。有人可以提供一个例子吗?
machine-learning - 与注册课程相关的提示/建议的协同过滤方法
我正在研究一个需要建立推荐器的特定问题。概括的问题如下,每个用户注册了(比如)x门课程(c1,c2,c3,..cx)根据每门课程,我需要向用户提供(比如)前5个提示/建议(例如可能有用的学习材料等)我需要应用协作元素来了解哪些建议对用户有帮助。
我查看了 Apache Mahout Taste 之类的推荐引擎,但我无法以类似于所示示例的方式对我的问题进行建模。(用户与一门或多门课程相关联并且每个推荐/提示可能与一门或多门课程相关联的额外过滤标准让我失望。)
请让我知道是否有任何建模此类问题的好方法?任何指向文档/示例的指针将不胜感激。我刚刚开始在这方面的研究,所以如果我误解了任何概念,请多多包涵。
谢谢,
维维克
alfresco - Alfresco 的推荐引擎?
我想在Alfresco中实施类似亚马逊的推荐。
例如,如果员工搜索“2007 年财务报告”,搜索 UI 将显示相关文档,例如之前搜索相同内容的用户下载/查看的文档。
它可能会显示 Lucene(Alfresco 使用)找不到的文档。
例如,是否有人将 Alfresco 与Apache Mahout或pysuggest 集成?
mahout - 无法使用 hadoop 流读取 Mahout 生成的序列文件
我正在尝试流式传输由 Mahout 示例之一生成的序列文件以查看其内容:
作业成功启动并最终终止:
我想知道我的流式 jar 文件是否有问题,是否需要明确指向具有此类的 Mahout jar(尝试将 HADOOP_CLASSPATH 设置为 mahout-core-0.5-cdh3u2.jar 的位置但不起作用),或者也许甚至是别的东西?
任何帮助表示赞赏。谢谢。