2

我对 Hadoop 非常熟悉,但对 Apache Spark 完全陌生。目前我正在使用 Mahout 中实现的 LDA(潜在狄利克雷分配)算法来进行主题发现。但是,由于我需要使过程更快,我想使用 spark,但是在 Spark MLib 中没有实现 LDA(或 CVB)算法。这是否意味着我必须自己从头开始实现它?如果是这样,Spark 是否提供了一些使其更容易的工具?

4

3 回答 3

3

LDA 最近被添加到 Spark 中。它不是当前 1.2.1 版本的一部分。

但是,您可以在当前的 SNAPSHOT 版本中找到一个示例:LDAExample.scala

您还可以阅读有关SPARK-1405 问题的有趣信息。


那么我该如何使用它呢?

未发布时最简单的方法可能是在您的项目中复制以下类,就好像您自己编写了它们一样:

于 2015-03-03T21:49:16.947 回答
3

实际上 Spark 1.3.0 现在已经发布,所以 LDA 可用!!

cf https://issues.apache.org/jira/browse/SPARK-1405

问候,

于 2015-03-03T21:49:37.640 回答
3

关于如何在 1.3 中使用新的 Spark LDA API:

这是一篇描述新 API 的文章:使用 LDA 进行主题建模:MLlib 与 GraphX

并且,它链接到显示如何向量化文本输入的示例代码:Github LDA Example

于 2015-05-05T17:24:46.923 回答