Cloud Data Fusion 会为每次流水线运行创建一个新的 Dataproc 集群。我已经有一个 24x7 运行的 Dataproc 集群设置,我想使用该集群来运行管道
2 回答
这可以通过在系统管理员 -> 配置 -> 系统计算配置文件 -> 创建一个新的计算配置文件下使用远程 Hadoop 配置程序设置一个新的计算配置文件来实现。此功能仅适用于 Cloud Data Fusion 企业版(“执行环境选择”)。
以下是详细步骤。
Dataproc 集群上的 SSH 设置
一种。导航到 Google Cloud Platform 上的 Dataproc 控制台。点击您的 Dataproc 集群名称,转到“集群详细信息”。
湾。在“VM Instances”下,单击“SSH”按钮以连接到 Dataproc VM。
C。按照此处的步骤创建新的 SSH 密钥,格式化公钥文件以强制到期时间,并在项目或实例级别添加新创建的 SSH 公钥。
d。如果 SSH 设置成功,您应该能够在 Compute Engine 控制台的 Metadata 部分看到刚刚添加的 SSH 密钥,以及 Dataproc VM 中的 authorized_keys 文件。
为您的 Data Fusion 实例创建自定义系统计算配置文件
C。在“配置”选项卡下,展开“系统计算配置文件”。点击“Create New Profile”,然后在下一页选择“Remote Hadoop Provisioner”。
d。填写个人资料的一般信息。
e. 您可以在 Compute Engine 下的“VM instance details”页面找到 SSH 主机 IP 信息。
F。复制在步骤 1 中创建的 SSH 私钥,并将其粘贴到“SSH 私钥”字段。
配置您的数据融合管道以使用自定义配置文件
一种。单击管道以针对远程 hadoop 运行
在此过程之后,我在启动管道时收到“java.io.IOException: com.jcraft.jsch.JSchException: invalid privatekey”异常。
我尝试在公钥中有/没有过期时间。我尝试在主实例级别和项目级别设置密钥。通过“ssh -i private-key-file user@external-ip”连接到实例有效。
错误堆栈:
743 - 调试 [pcontroller-program:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow-99b4015f-1860-11eb-b3cf-bae7e12abd00:iccarAbstractProgramRuntimeService@554] - RuntimeInfo 已删除:RuntimeInfo{programId=program:default.apache -logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow,twillRunId=99b4015f-1860-11eb-b3cf-bae7e12abd00} 2020-10-27 14:28:07,325 - 调试 [provisioning-service-2:icciptProvisioningTask@121] - 执行 DEPROVISION程序运行的子任务 REQUESTING_DELETE program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,354 - WARN [provisioning-service-2:iccrsprRemoteHadoopProvisioner@138] - 无法清理远程集群上运行 99b4015f-1860-11eb-b3cf-bae7e12abd00 的程序 DataPipelineWorkflow 的资源。可能需要在集群节点 35.233.87.155 上手动删除运行目录。java.io.IOException:com.jcraft.jsch.JSchException:无效的私钥:[B@5f165c7e at io.cdap.cdap.common.ssh.DefaultSSHSession.(DefaultSSHSession.java:88) ~[na:na] at io. cdap.cdap.internal.provision.DefaultSSHContext.createSSHSession(DefaultSSHContext.java:120) ~[na:na] at io.cdap.cdap.runtime.spi.ssh.SSHContext.createSSHSession(SSHContext.java:92) ~[na :na] 在 io.cdap.cdap.runtime.spi.ssh.SSHContext.createSSHSession(SSHContext.java:80) ~[na:na] 在 io.cdap.cdap.runtime.spi.provisioner.remote.RemoteHadoopProvisioner.createSSHSession (RemoteHadoopProvisioner.java:80) ~[na:na] at io.cdap.cdap.runtime.spi.provisioner.remote.RemoteHadoopProvisioner.deleteCluster(RemoteHadoopProvisioner.java:133) ~[na:na] at io.cdap.cdap .runtime.spi.provisioner.Provisioner。java:624) ~[na:1.8.0_252] at java.lang.Thread.run(Thread.java:748) ~[na:1.8.0_252] 原因:com.jcraft.jsch.JSchException:无效的私钥:[ B@5f165c7e at com.jcraft.jsch.KeyPair.load(KeyPair.java:664) ~[com.jcraft.jsch-0.1.54.jar:na] at com.jcraft.jsch.IdentityFile.newInstance(IdentityFile.java :46) ~[com.jcraft.jsch-0.1.54.jar:na] 在 com.jcraft.jsch.JSch.addIdentity(JSch.java:442) ~[com.jcraft.jsch-0.1.54.jar: na] 在 io.cdap.cdap.common.ssh.DefaultSSHSession.(DefaultSSHSession.java:71) ~[na:na] ...省略了 23 个常见帧 2020-10-27 14:28:07,354 - 调试 [配置- service-2:icciptProvisioningTask@125] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00 完成了 DEPROVISION 子任务 REQUESTING_DELETE。2020-10-27 14:28:07, 370 - 调试 [provisioning-service-2:icciptProvisioningTask@121] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00 执行 DEPROVISION 子任务 POLLING_DELETE。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-完成了 DEPROVISION 子任务 POLLING_DELETE 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 的 DEPROVISION 任务-11eb-b3cf-bae7e12abd00。ProvisioningTask@121] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00 执行 DEPROVISION 子任务 POLLING_DELETE。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-完成了 DEPROVISION 子任务 POLLING_DELETE 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 的 DEPROVISION 任务-11eb-b3cf-bae7e12abd00。ProvisioningTask@121] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00 执行 DEPROVISION 子任务 POLLING_DELETE。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-完成了 DEPROVISION 子任务 POLLING_DELETE 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行的 DEPROVISION 任务 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 -11eb-b3cf-bae7e12abd00。99b4015f-1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 已完成程序运行的 DEPROVISION 子任务 POLLING_DELETE program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f- 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行的 DEPROVISION 任务 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 -11eb-b3cf-bae7e12abd00。99b4015f-1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 已完成程序运行的 DEPROVISION 子任务 POLLING_DELETE program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f- 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行的 DEPROVISION 任务 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 -11eb-b3cf-bae7e12abd00。