我对使用 Pig 加载 HCatalog 感到很自在,并且想知道是否可以使用 Spark 代替 Pig。不幸的是,我对 Spark 很陌生……
您能提供有关如何开始的任何材料吗?是否有任何 Spark 库可供使用?有什么例子吗?我已经在http://spark.apache.org/上进行了所有练习,但他们专注于 RDD 并且不再进一步......
我将不胜感激任何帮助...
问候
帕维尔
我对使用 Pig 加载 HCatalog 感到很自在,并且想知道是否可以使用 Spark 代替 Pig。不幸的是,我对 Spark 很陌生……
您能提供有关如何开始的任何材料吗?是否有任何 Spark 库可供使用?有什么例子吗?我已经在http://spark.apache.org/上进行了所有练习,但他们专注于 RDD 并且不再进一步......
我将不胜感激任何帮助...
问候
帕维尔
您可以使用 spark SQL 从 Hive Table 而不是 HCatalog 读取。
您可以使用 Spark Java/Scala/Python 语言(如 filter、join、group by..)应用与 Pig 相同的转换。
您可以参考以下链接以将 HCatalog InputFormat 包装器与 Spark 一起使用;这是在 SparkSQL 之前编写的。
https://gist.github.com/granturing/7201912
我们的系统已经加载了两者,我们可以使用其中任何一个。Spark 具有您正在使用的语言的特征,Scala,Python...,。例如,将 Spark 与 Python 结合使用,您可以在 Spark 中使用许多 Python 库。