3

我对使用 Pig 加载 HCatalog 感到很自在,并且想知道是否可以使用 Spark 代替 Pig。不幸的是,我对 Spark 很陌生……
您能提供有关如何开始的任何材料吗?是否有任何 Spark 库可供使用?有什么例子吗?我已经在http://spark.apache.org/上进行了所有练习,但他们专注于 RDD 并且不再进一步......

我将不胜感激任何帮助...
问候
帕维尔

4

3 回答 3

1

您可以使用 spark SQL 从 Hive Table 而不是 HCatalog 读取。

https://spark.apache.org/sql/

您可以使用 Spark Java/Scala/Python 语言(如 filter、join、group by..)应用与 Pig 相同的转换。

于 2015-03-25T13:27:46.053 回答
1

您可以参考以下链接以将 HCatalog InputFormat 包装器与 Spark 一起使用;这是在 SparkSQL 之前编写的。
https://gist.github.com/granturing/7201912

于 2014-08-18T12:03:05.027 回答
0

我们的系统已经加载了两者,我们可以使用其中任何一个。Spark 具有您正在使用的语言的特征,Scala,Python...,。例如,将 Spark 与 Python 结合使用,您可以在 Spark 中使用许多 Python 库。

于 2015-02-03T14:32:25.720 回答