hadoop - 如何在 Spark 中进行文本分析

Question

我对 Hadoop 非常熟悉，但对 Apache Spark 完全陌生。目前我正在使用 Mahout 中实现的 LDA（潜在狄利克雷分配）算法来进行主题发现。但是，由于我需要使过程更快，我想使用 spark，但是在 Spark MLib 中没有实现 LDA（或 CVB）算法。这是否意味着我必须自己从头开始实现它？如果是这样，Spark 是否提供了一些使其更容易的工具？

score 3 · Accepted Answer

LDA 最近被添加到 Spark 中。它不是当前 1.2.1 版本的一部分。

但是，您可以在当前的 SNAPSHOT 版本中找到一个示例：LDAExample.scala

您还可以阅读有关SPARK-1405 问题的有趣信息。

那么我该如何使用它呢？

未发布时最简单的方法可能是在您的项目中复制以下类，就好像您自己编写了它们一样：

score 3 · Accepted Answer

实际上 Spark 1.3.0 现在已经发布，所以 LDA 可用！！

cf https://issues.apache.org/jira/browse/SPARK-1405

问候，

score 3 · Accepted Answer

关于如何在 1.3 中使用新的 Spark LDA API：

这是一篇描述新 API 的文章：使用 LDA 进行主题建模：MLlib 与 GraphX

并且，它链接到显示如何向量化文本输入的示例代码：Github LDA Example

hadoop - 如何在 Spark 中进行文本分析

3 回答 3

那么我该如何使用它呢？

Related

Reference