“mahout”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

754 浏览

bayesian - Mahout 中朴素贝叶斯分类器对网站分类的适用性

我目前正在从事一个需要对网站进行分类的数据库（例如 cnn.com = 新闻）的项目。我们只需要广泛的分类 - 我们不需要单独分类每个 URL。我们正在与此类数据库的通常供应商交谈，但我们收到的大多数报价都非常昂贵，而且它们通常会提出令人讨厌的要求——比如必须使用他们的 SDK 来查询数据库。

同时，我也一直在探索自己建立这样一个数据库的可能性。我意识到这不是一个 5 分钟的工作，所以我正在做大量的研究。

通过阅读有关该主题的各种论文，似乎朴素贝叶斯分类器通常是执行此操作的标准方法。然而，许多论文建议改进以提高其在网络分类中的准确性——通常是通过利用其他上下文信息，如超链接、标题标签、多词短语、URL、词频等。

我一直在针对 20 Newsgroup 测试数据集试验 Mahout 的朴素贝叶斯分类器，我可以看到它对网站分类的适用性，但我担心它在我的用例中的准确性。

有人知道在 Mahout 中扩展贝叶斯分类器以考虑其他属性的可行性吗？任何关于从哪里开始的指针将不胜感激。

或者，如果我完全叫错了树，请告诉我！

2011-11-02T10:44:42.427

0 投票

3 回答

2735 浏览

hadoop - Mahout - 朴素贝叶斯

我尝试使用 mahout 部署 20 个新闻组示例，它似乎工作正常。出于好奇，我想深入研究模型统计信息，

例如：bayes-model 目录包含以下子目录，

培训师-tfIdf 培训师-thetaNormalizer 培训师-权重

其中包含部分 0000 文件。我想阅读文件的内容以便更好地理解，cat 命令似乎不起作用，它打印了一些垃圾。

任何帮助表示赞赏。

谢谢

hadoop mahout

2011-11-14T07:46:43.227

0 投票

1 回答

1120 浏览

hadoop - 使用 Mahout 进行持续协同过滤

我正在将 Mahout 评估为协作过滤推荐引擎。到目前为止，它看起来很棒。我们有来自 1200 万不同用户的近 2000 万条布尔推荐。根据Mahout 的 wiki和 Sean Owen的一些线程，在这种情况下，一台机器就足够了。因此，我决定使用 MySql 作为数据模型并暂时跳过使用 Hadoop 的开销。

但有一件事让我难以理解，在不从头开始读取整个数据的情况下，不断更新建议的最佳实践是什么？我们每天都有数以万计的新建议。虽然我不希望它被实时处理，但我希望每 15 分钟左右处理一次。

请详细说明基于 Mysql 和基于 Hadoop 的部署的方法。谢谢！

hadoop mahout

2011-11-21T07:49:35.990

0 投票

1 回答

3833 浏览

java - 为什么 apache Mahout 频繁模式 minnig 算法只返回 1 个项目集？

我目前正在测试 Apache Mahout 并行频繁模式挖掘。在实际项目中使用它之前，我从一个简单的代码开始，只是为了确保它按我期望的那样工作......

我没有找到包含代码、数据和输出的完整示例。

我目前有一个编译和执行版本（参见下面的 java / scala 代码），但返回的频繁模式只包含一个元组（参见下面的示例输出）。

这是预期的行为吗？我做错什么了？

谢谢你的帮助...

斯卡拉代码：

爪哇代码：

样本输出：

java algorithm scala data-mining mahout

2011-11-21T16:51:00.473

0 投票

2 回答

3558 浏览

performance - Apache Mahout 性能问题

在过去的几天里，我一直在与 Mahout 合作，试图创建一个推荐引擎。我正在从事的项目有以下数据：

1200 万用户

200 万件商品

18M 用户项目布尔推荐

我现在正在试验我们拥有的全套产品的 1/3（即 18M 建议中的 6M）。在我尝试的任何配置中，Mahout 都提供了令人失望的结果。一些建议需要 1.5 秒，而另一些建议需要一分钟以上。我认为推荐的合理时间应该在 100 毫秒左右。

为什么 Mahout 工作这么慢？
我正在使用以下 JVM 参数在 Tomcat 上运行应用程序（即使添加它们并没有太大区别）：

以下是我的实验的代码片段：

用户相似度1：

用户相似度2：

物品相似度1：

performance mahout recommendation-engine

2011-11-23T10:11:34.383

0 投票

1 回答

1754 浏览

cluster-analysis - K 表示使用 Mahout 进行聚类

我正在使用此处给出的聚类技术对大型数据集进行聚类，这在 Mahout 示例中给出。但是，当我可视化特定的聚类时，我得到下图。

Mahout k-means 可视化。

我真的很难理解这实际上意味着什么并且有几个问题。

所有彩色线条表示什么？
这么多集群是什么意思？
为什么少数区域拥挤，而其他区域不拥挤？
为什么几条彩色线相互重叠？

cluster-analysis data-mining mahout k-means

2011-11-25T17:01:47.910

0 投票

2 回答

1775 浏览

java - mahout 推荐器

Apache Mahout Recommender 文档提到以下内容：

我不确定上述行中的实际构造是如何完成的。有人可以提供一个例子吗？

java mahout

2011-11-27T03:28:47.627

0 投票

1 回答

213 浏览

machine-learning - 与注册课程相关的提示/建议的协同过滤方法

我正在研究一个需要建立推荐器的特定问题。概括的问题如下，每个用户注册了（比如）x门课程（c1，c2，c3，..cx）根据每门课程，我需要向用户提供（比如）前5个提示/建议（例如可能有用的学习材料等）我需要应用协作元素来了解哪些建议对用户有帮助。
我查看了 Apache Mahout Taste 之类的推荐引擎，但我无法以类似于所示示例的方式对我的问题进行建模。（用户与一门或多门课程相关联并且每个推荐/提示可能与一门或多门课程相关联的额外过滤标准让我失望。）
请让我知道是否有任何建模此类问题的好方法？任何指向文档/示例的指针将不胜感激。我刚刚开始在这方面的研究，所以如果我误解了任何概念，请多多包涵。

谢谢，
维维克

machine-learning mahout recommendation-engine collaborative-filtering

2011-11-28T07:10:48.107

0 投票

3 回答

640 浏览

alfresco - Alfresco 的推荐引擎？

我想在Alfresco中实施类似亚马逊的推荐。

例如，如果员工搜索“2007 年财务报告”，搜索 UI 将显示相关文档，例如之前搜索相同内容的用户下载/查看的文档。

它可能会显示 Lucene（Alfresco 使用）找不到的文档。
例如，是否有人将 Alfresco 与Apache Mahout或pysuggest 集成？

alfresco mahout recommendation-engine

2011-11-30T03:18:52.703

0 投票

1 回答

1231 浏览

mahout - 无法使用 hadoop 流读取 Mahout 生成的序列文件

我正在尝试流式传输由 Mahout 示例之一生成的序列文件以查看其内容：

作业成功启动并最终终止：

我想知道我的流式 jar 文件是否有问题，是否需要明确指向具有此类的 Mahout jar（尝试将 HADOOP_CLASSPATH 设置为 mahout-core-0.5-cdh3u2.jar 的位置但不起作用），或者也许甚至是别的东西？

任何帮助表示赞赏。谢谢。

mahout hadoop-streaming

2011-11-30T21:28:17.563

问题标签 [mahout]

Reference