我目前是Apache Mahout的一个非常随意的用户,我正在考虑购买Mahout in Action这本书。不幸的是,我很难理解这本书的价值——因为这是一本曼宁早期访问计划的书(因此目前只能作为测试版电子书提供),我可以不要自己去书店看看。
任何人都可以将其推荐为一个好的(或不太好的)指南,以快速了解 Mahout 和/或其他可以补充 Mahout 网站的资源吗?
我目前是Apache Mahout的一个非常随意的用户,我正在考虑购买Mahout in Action这本书。不幸的是,我很难理解这本书的价值——因为这是一本曼宁早期访问计划的书(因此目前只能作为测试版电子书提供),我可以不要自己去书店看看。
任何人都可以将其推荐为一个好的(或不太好的)指南,以快速了解 Mahout 和/或其他可以补充 Mahout 网站的资源吗?
作为 Mahout 提交者和本书的合著者,我认为这是值得的。;-)
但说真的,你在做什么?也许我们可以为您指出一些资源。
Mahout 的某些方面很难靠您自己弄清楚。我们努力回答邮件列表上的问题,但拥有示例代码和路线图确实会有所帮助。没有这些,甚至很难提出一个好的问题。
也是这里的合著者。作为“从马的嘴里”,它可能是迄今为止对 Mahout 本身最完整的描述。那里有一些很好的博客文章,当然还有很多关于更一般的机器学习的好书(我喜欢集体智能行动作为一个广泛的介绍)。user@mahout.apache.org 有几个人说他们喜欢这本书 FWIW,就像书籍论坛一样 (http://www.manning-sandbox.com/forum.jspa?forumID=623) 我认为你可以返回电子书,如果它不是你想要的。它肯定有 6 章关于聚类。
本书的许多部分已经过时,比当前版本落后一两个版本。此外,文本中存在一些错误,特别是在示例中。在尝试复制讨论的结果时,这可能会使事情变得有些棘手。
此外,您应该知道 mahout 最成熟的部分,即推荐系统,味道,不是分布式的。我不太确定为什么这与其他 mahout 打包在一起。这更像是对软件包的抱怨,而不是对 mahout 本身的抱怨。
目前是最好的。可能和产品一样成熟。有些方面比其他方面更好,对底层实现的洞察力很好,对于初学者来说,在 Linux、mac osx 等上启动和运行的实用方法并不多。定义一个关于如何保持推荐人更新的明确策略是不确定的。生产示例相当薄。作为一个起点很好,但你需要更多。作者尽最大努力提供帮助,但这是一个相当新的产品。总而言之,是的,买它。
几周前我拿到了这本书。强烈推荐。作者在邮件列表中也非常活跃,并且在这个项目中有很多很酷的能量。
您还可以考虑阅读 Paco Nathan 的“级联企业数据工作流”。您可以在从 R 或 SAS 导出的集群上运行 PMML。这并不是说 Mahout in Action 有什么不好的地方,作者做得很好,显然投入了大量的时间和精力使其具有启发性和趣味性。这更像是一个超越 Mahout 的建议。如果它更加用户友好,它目前还没有得到那种牵引力。
就目前而言,Mahout 用户体验有点不稳定,并没有真正让您清楚地了解如何开发和更新智能系统及其生命周期,IMO。Mahout 也不是真正为学者所接受,他们更有可能使用 Matlab 或 R。在 Mahout 文档中,随机森林实现几乎没有工作,文档有错误的示例,等等......这令人沮丧,而且并行性和可扩展性Mahout 例程取决于算法。我目前还没有看到 Mahout 会继续保持稳定,再次是 IMO。我希望我错了!