我想从 Zeppelin 笔记本中读取位于 Amazon S3 中的 avro 文件。我知道 Databricks 有一个很棒的包spark-avro
。为了将此 jar 文件引导到我的集群并使其正常工作,我需要采取哪些步骤?
当我在笔记本上写下这些时,
val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")
我收到以下错误 -
<console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader
我看过这个。我猜那里发布的解决方案不适用于最新版本的 Amazon EMR。
如果有人能给我指点,那真的很有帮助。