我对 Hadoop 非常熟悉,但对 Apache Spark 完全陌生。目前我正在使用 Mahout 中实现的 LDA(潜在狄利克雷分配)算法来进行主题发现。但是,由于我需要使过程更快,我想使用 spark,但是在 Spark MLib 中没有实现 LDA(或 CVB)算法。这是否意味着我必须自己从头开始实现它?如果是这样,Spark 是否提供了一些使其更容易的工具?
问问题
2700 次
3 回答
3
LDA 最近被添加到 Spark 中。它不是当前 1.2.1 版本的一部分。
但是,您可以在当前的 SNAPSHOT 版本中找到一个示例:LDAExample.scala
您还可以阅读有关SPARK-1405 问题的有趣信息。
那么我该如何使用它呢?
未发布时最简单的方法可能是在您的项目中复制以下类,就好像您自己编写了它们一样:
于 2015-03-03T21:49:16.947 回答
3
于 2015-03-03T21:49:37.640 回答
3
关于如何在 1.3 中使用新的 Spark LDA API:
这是一篇描述新 API 的文章:使用 LDA 进行主题建模:MLlib 与 GraphX
并且,它链接到显示如何向量化文本输入的示例代码:Github LDA Example
于 2015-05-05T17:24:46.923 回答