4

Cloud Data Fusion 会为每次流水线运行创建一个新的 Dataproc 集群。我已经有一个 24x7 运行的 Dataproc 集群设置,我想使用该集群来运行管道

4

2 回答 2

9

这可以通过在系统管理员 -> 配置 -> 系统计算配置文件 -> 创建一个新的计算配置文件下使用远程 Hadoop 配置程序设置一个新的计算配置文件来实现。此功能仅适用于 Cloud Data Fusion 企业版(“执行环境选择”)。

以下是详细步骤。

  1. Dataproc 集群上的 SSH 设置

    一种。导航到 Google Cloud Platform 上的 Dataproc 控制台。点击您的 Dataproc 集群名称,转到“集群详细信息”。

    湾。在“VM Instances”下,单击“SSH”按钮以连接到 Dataproc VM。 Dataproc 虚拟机 SSH

    C。按照此处的步骤创建新的 SSH 密钥,格式化公钥文件以强制到期时间,并在项目或实例级别添加新创建的 SSH 公钥。

    d。如果 SSH 设置成功,您应该能够在 Compute Engine 控制台的 Metadata 部分看到刚刚添加的 SSH 密钥,以及 Dataproc VM 中的 authorized_keys 文件。 Dataproc SSH 密钥

  2. 为您的 Data Fusion 实例创建自定义系统计算配置文件

    一种。通过单击“查看实例”导航到您的数据融合实例控制台 在此处输入图像描述

    湾。点击右上角的“系统管理员”。 在此处输入图像描述

    C。在“配置”选项卡下,展开“系统计算配置文件”。点击“Create New Profile”,然后在下一页选择“Remote Hadoop Provisioner”。 供应商 在此处输入图像描述

    d。填写个人资料的一般信息。

    e. 您可以在 Compute Engine 下的“VM instance details”页面找到 SSH 主机 IP 信息。 在此处输入图像描述

    F。复制在步骤 1 中创建的 SSH 私钥,并将其粘贴到“SSH 私钥”字段。

    G。单击“创建”以创建配置文件。 轮廓

  3. 配置您的数据融合管道以使用自定义配置文件

    一种。单击管道以针对远程 hadoop 运行

    湾。单击配置-> 计算配置并选择远程 hadoop 配置器配置 管道远程 Hadoop 计算配置文件

于 2019-07-03T16:06:23.127 回答
0

在此过程之后,我在启动管道时收到“java.io.IOException: com.jcraft.jsch.JSchException: invalid privatekey”异常。

我尝试在公钥中有/没有过期时间。我尝试在主实例级别和项目级别设置密钥。通过“ssh -i private-key-file user@external-ip”连接到实例有效。

错误堆栈:

743 - 调试 [pcontroller-program:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow-99b4015f-1860-11eb-b3cf-bae7e12abd00:iccarAbstractProgramRuntimeService@554] - RuntimeInfo 已删除:RuntimeInfo{programId=program:default.apache -logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow,twillRunId=99b4015f-1860-11eb-b3cf-bae7e12abd00} 2020-10-27 14:28:07,325 - 调试 [provisioning-service-2:icciptProvisioningTask@121] - 执行 DEPROVISION程序运行的子任务 REQUESTING_DELETE program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,354 - WARN [provisioning-service-2:iccrsprRemoteHadoopProvisioner@138] - 无法清理远程集群上运行 99b4015f-1860-11eb-b3cf-bae7e12abd00 的程序 DataPipelineWorkflow 的资源。可能需要在集群节点 35.233.87.155 上手动删除运行目录。java.io.IOException:com.jcraft.jsch.JSchException:无效的私钥:[B@5f165c7e at io.cdap.cdap.common.ssh.DefaultSSHSession.(DefaultSSHSession.java:88) ~[na:na] at io. cdap.cdap.internal.provision.DefaultSSHContext.createSSHSession(DefaultSSHContext.java:120) ~[na:na] at io.cdap.cdap.runtime.spi.ssh.SSHContext.createSSHSession(SSHContext.java:92) ~[na :na] 在 io.cdap.cdap.runtime.spi.ssh.SSHContext.createSSHSession(SSHContext.java:80) ~[na:na] 在 io.cdap.cdap.runtime.spi.provisioner.remote.RemoteHadoopProvisioner.createSSHSession (RemoteHadoopProvisioner.java:80) ~[na:na] at io.cdap.cdap.runtime.spi.provisioner.remote.RemoteHadoopProvisioner.deleteCluster(RemoteHadoopProvisioner.java:133) ~[na:na] at io.cdap.cdap .runtime.spi.provisioner.Provisioner。java:624) ~[na:1.8.0_252] at java.lang.Thread.run(Thread.java:748) ~[na:1.8.0_252] 原因:com.jcraft.jsch.JSchException:无效的私钥:[ B@5f165c7e at com.jcraft.jsch.KeyPair.load(KeyPair.java:664) ~[com.jcraft.jsch-0.1.54.jar:na] at com.jcraft.jsch.IdentityFile.newInstance(IdentityFile.java :46) ~[com.jcraft.jsch-0.1.54.jar:na] 在 com.jcraft.jsch.JSch.addIdentity(JSch.java:442) ~[com.jcraft.jsch-0.1.54.jar: na] 在 io.cdap.cdap.common.ssh.DefaultSSHSession.(DefaultSSHSession.java:71) ~[na:na] ...省略了 23 个常见帧 2020-10-27 14:28:07,354 - 调试 [配置- service-2:icciptProvisioningTask@125] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00 完成了 DEPROVISION 子任务 REQUESTING_DELETE。2020-10-27 14:28:07, 370 - 调试 [provisioning-service-2:icciptProvisioningTask@121] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00 执行 DEPROVISION 子任务 POLLING_DELETE。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-完成了 DEPROVISION 子任务 POLLING_DELETE 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 的 DEPROVISION 任务-11eb-b3cf-bae7e12abd00。ProvisioningTask@121] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00 执行 DEPROVISION 子任务 POLLING_DELETE。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-完成了 DEPROVISION 子任务 POLLING_DELETE 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 的 DEPROVISION 任务-11eb-b3cf-bae7e12abd00。ProvisioningTask@121] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860-11eb-b3cf-bae7e12abd00 执行 DEPROVISION 子任务 POLLING_DELETE。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 为程序运行 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-完成了 DEPROVISION 子任务 POLLING_DELETE 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行的 DEPROVISION 任务 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 -11eb-b3cf-bae7e12abd00。99b4015f-1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 已完成程序运行的 DEPROVISION 子任务 POLLING_DELETE program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f- 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行的 DEPROVISION 任务 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 -11eb-b3cf-bae7e12abd00。99b4015f-1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,481 - 调试 [provisioning-service-2:icciptProvisioningTask@125] - 已完成程序运行的 DEPROVISION 子任务 POLLING_DELETE program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f- 1860-11eb-b3cf-bae7e12abd00。2020-10-27 14:28:07,497 - 调试 [provisioning-service-2:icciptProvisioningTask@112] - 已完成程序运行的 DEPROVISION 任务 program_run:default.apache-logs-ingest_v1.-SNAPSHOT.workflow.DataPipelineWorkflow.99b4015f-1860 -11eb-b3cf-bae7e12abd00。

于 2020-10-27T14:36:22.203 回答