有人可以集成 Dataproc、Datalab 和源代码仓库吗?正如我们许多人所看到的,当您调用一个 init 操作来安装 datalab 时,它不会创建源代码存储库。我正在尝试实现一个完整的端到端解决方案,其中用户登录到数据实验室笔记本,通过 Pyspark 与 Dataproc 交互并将笔记本签入到源代码存储库。就像我之前指出的那样,我无法使用 init 操作来做到这一点。我还尝试安装 dataproc,然后将 datalab 作为单独的安装(这次它创建源存储库),但是,我无法在这个 datalab 笔记本上运行任何 spark 代码。有人可以给我一些关于如何实现这一目标的指示吗?任何和所有的赞赏。
Datalab 中的代码
from pyspark.sql import HiveContext
hc=HiveContext(sc)
hc.sql("""show databases""").show()
hc.sql("""CREATE EXTERNAL TABLE IF NOT EXISTS INVOICES
(SubmissionDate DATE, TransactionAmount DOUBLE, TransactionType STRING)
STORED AS PARQUET
LOCATION 'gs://my-exercise-project-2019016-ds-team/datasets/invoices'""")
hc.sql("""select * from invoices limit 10""").show()
错误
Py4JJavaError: An error occurred while calling o55.sql.
: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem not found
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:2395)
at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:3208)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3240)
at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:121)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:3291)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:3259)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:470)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:356)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$or