我一直在尝试创建 Dataproc 工作流模板来执行存在于我的 Dataproc 集群上的 Jupyter 笔记本,但是当我实例化该模板时,作业会失败,而如果我将笔记本下载为.py
文件,然后将它们添加到工作流模板中,它就可以工作。
我只是好奇是否有任何方法可以创建一个可以直接将现有 Jupyter 笔记本作为其步骤的工作流模板。
我一直在尝试创建 Dataproc 工作流模板来执行存在于我的 Dataproc 集群上的 Jupyter 笔记本,但是当我实例化该模板时,作业会失败,而如果我将笔记本下载为.py
文件,然后将它们添加到工作流模板中,它就可以工作。
我只是好奇是否有任何方法可以创建一个可以直接将现有 Jupyter 笔记本作为其步骤的工作流模板。
Dataproc 尚不支持通过作业和工作流模板 API 直接执行 Jupyter 笔记本。
您可以通过编写和提交将用于nbconvert
执行 notebook的 PySpark 作业/工作流模板步骤来解决此问题。