spark 文档显示了如何添加 spark 包:
sparkR.session(sparkPackages = "com.databricks:spark-avro_2.11:3.0.0")
我相信这只能在初始化会话时使用。
我们如何使用 DSX 上的笔记本为 SparkR 添加火花包?
spark 文档显示了如何添加 spark 包:
sparkR.session(sparkPackages = "com.databricks:spark-avro_2.11:3.0.0")
我相信这只能在初始化会话时使用。
我们如何使用 DSX 上的笔记本为 SparkR 添加火花包?
请使用 pixiedust 包管理器安装 avro 包。
pixiedust.installPackage("com.databricks:spark-avro_2.11:3.0.0")
http://datascience.ibm.com/docs/content/analyze-data/Package-Manager.html
从 python 1.6 内核安装它,因为 pixiedust 在 python 中是可导入的。(记住这是在你的 spark 实例级别安装)。安装后,重新启动内核,然后切换到 R 内核,然后像这样读取 avro:-
df1 <- read.df("episodes.avro", source = "com.databricks.spark.avro", header = "true")
head(df1)
完整的笔记本:-
https://github.com/charles2588/bluemixsparknotebooks/raw/master/R/sparkRPackageTest.ipynb
谢谢,查尔斯。