问题标签 [mahout]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
754 浏览

bayesian - Mahout 中朴素贝叶斯分类器对网站分类的适用性

我目前正在从事一个需要对网站进行分类的数据库(例如 cnn.com = 新闻)的项目。我们只需要广泛的分类 - 我们不需要单独分类每个 URL。我们正在与此类数据库的通常供应商交谈,但我们收到的大多数报价都非常昂贵,而且它们通常会提出令人讨厌的要求——比如必须使用他们的 SDK 来查询数据库。

同时,我也一直在探索自己建立这样一个数据库的可能性。我意识到这不是一个 5 分钟的工作,所以我正在做大量的研究。

通过阅读有关该主题的各种论文,似乎朴素贝叶斯分类器通常是执行此操作的标准方法。然而,许多论文建议改进以提高其在网络分类中的准确性——通常是通过利用其他上下文信息,如超链接、标题标签、多词短语、URL、词频等。

我一直在针对 20 Newsgroup 测试数据集试验 Mahout 的朴素贝叶斯分类器,我可以看到它对网站分类的适用性,但我担心它在我的用例中的准确性。

有人知道在 Mahout 中扩展贝叶斯分类器以考虑其他属性的可行性吗?任何关于从哪里开始的指针将不胜感激。

或者,如果我完全叫错了树,请告诉我!

0 投票
3 回答
2735 浏览

hadoop - Mahout - 朴素贝叶斯

我尝试使用 mahout 部署 20 个新闻组示例,它似乎工作正常。出于好奇,我想深入研究模型统计信息,

例如:bayes-model 目录包含以下子目录,

培训师-tfIdf 培训师-thetaNormalizer 培训师-权重

其中包含部分 0000 文件。我想阅读文件的内容以便更好地理解,cat 命令似乎不起作用,它打印了一些垃圾。

任何帮助表示赞赏。

谢谢

0 投票
1 回答
1120 浏览

hadoop - 使用 Mahout 进行持续协同过滤

我正在将 Mahout 评估为协作过滤推荐引擎。到目前为止,它看起来很棒。我们有来自 1200 万不同用户的近 2000 万条布尔推荐。根据Mahout 的 wiki和Sean Owen的一些线程,在这种情况下,一台机器就足够了。因此,我决定使用 MySql 作为数据模型并暂时跳过使用 Hadoop 的开销。

但有一件事让我难以理解,在不从头开始读取整个数据的情况下,不断更新建议的最佳实践是什么?我们每天都有数以万计的新建议。虽然我不希望它被实时处理,但我希望每 15 分钟左右处理一次。

请详细说明基于 Mysql 和基于 Hadoop 的部署的方法。谢谢!

0 投票
1 回答
3833 浏览

java - 为什么 apache Mahout 频繁模式 minnig 算法只返回 1 个项目集?

我目前正在测试 Apache Mahout 并行频繁模式挖掘。在实际项目中使用它之前,我从一个简单的代码开始,只是为了确保它按我期望的那样工作......

我没有找到包含代码、数据和输出的完整示例。

我目前有一个编译和执行版本(参见下面的 java / scala 代码),但返回的频繁模式只包含一个元组(参见下面的示例输出)。

这是预期的行为吗?我做错什么了?

谢谢你的帮助...

斯卡拉代码:

爪哇代码:

样本输出:

0 投票
2 回答
3558 浏览

performance - Apache Mahout 性能问题

在过去的几天里,我一直在与 Mahout 合作,试图创建一个推荐引擎。我正在从事的项目有以下数据:

  • 1200 万用户
  • 200 万件商品
  • 18M 用户项目布尔推荐
  • 我现在正在试验我们拥有的全套产品的 1/3(即 18M 建议中的 6M)。在我尝试的任何配置中,Mahout 都提供了令人失望的结果。一些建议需要 1.5 秒,而另一些建议需要一分钟以上。我认为推荐的合理时间应该在 100 毫秒左右。

    为什么 Mahout 工作这么慢?
    我正在使用以下 JVM 参数在 Tomcat 上运行应用程序(即使添加它们并没有太大区别):

    以下是我的实验的代码片段:

    用户相似度1:

    用户相似度2:

    物品相似度1:

    0 投票
    1 回答
    1754 浏览

    cluster-analysis - K 表示使用 Mahout 进行聚类

    我正在使用此处给出的聚类技术对大型数据集进行聚类,这在 Mahout 示例中给出。但是,当我可视化特定的聚类时,我得到下图。

    Mahout k-means 可视化。

    我真的很难理解这实际上意味着什么并且有几个问题。

    1. 所有彩色线条表示什么?
    2. 这么多集群是什么意思?
    3. 为什么少数区域拥挤,而其他区域不拥挤?
    4. 为什么几条彩色线相互重叠?
    0 投票
    2 回答
    1775 浏览

    java - mahout 推荐器

    Apache Mahout Recommender 文档提到以下内容 :

    我不确定上述行中的实际构造是如何完成的。有人可以提供一个例子吗?

    0 投票
    1 回答
    213 浏览

    machine-learning - 与注册课程相关的提示/建议的协同过滤方法

    我正在研究一个需要建立推荐器的特定问题。概括的问题如下,每个用户注册了(比如)x门课程(c1,c2,c3,..cx)根据每门课程,我需要向用户提供(比如)前5个提示/建议(例如可能有用的学习材料等)我需要应用协作元素来了解哪些建议对用户有帮助。
    我查看了 Apache Mahout Taste 之类的推荐引擎,但我无法以类似于所示示例的方式对我的问题进行建模。(用户与一门或多门课程相关联并且每个推荐/提示可能与一门或多门课程相关联的额外过滤标准让我失望。)
    请让我知道是否有任何建模此类问题的好方法?任何指向文档/示例的指针将不胜感激。我刚刚开始在这方面的研究,所以如果我误解了任何概念,请多多包涵。

    谢谢,
    维维克

    0 投票
    3 回答
    640 浏览

    alfresco - Alfresco 的推荐引擎?

    我想在Alfresco中实施类似亚马逊的推荐。

    例如,如果员工搜索“2007 年财务报告”,搜索 UI 将显示相关文档,例如之前搜索相同内容的用户下载/查看的文档。

    它可能会显示 Lucene(Alfresco 使用)找不到的文档。
    例如,是否有人将 Alfresco 与Apache Mahoutpysuggest 集成

    0 投票
    1 回答
    1231 浏览

    mahout - 无法使用 hadoop 流读取 Mahout 生成的序列文件

    我正在尝试流式传输由 Mahout 示例之一生成的序列文件以查看其内容:

    作业成功启动并最终终止:

    我想知道我的流式 jar 文件是否有问题,是否需要明确指向具有此类的 Mahout jar(尝试将 HADOOP_CLASSPATH 设置为 mahout-core-0.5-cdh3u2.jar 的位置但不起作用),或者也许甚至是别的东西?

    任何帮助表示赞赏。谢谢。