1

我正在尝试在 Python Evaluator 的本机模式下运行“pip install py4j”。我找不到可以运行此命令来安装依赖项的位置。无法在网络上的任何地方找到解决方案。请指导我在数据融合中执行此命令。

提前致谢!

4

2 回答 2

1

没有直接的方法可以解决此问题,因为您无法修改管道内执行中使用的 Dataproc 集群。所以,如果你真的需要在 Native 模式下使用 Python 插件,我的建议是使用 py4j 库创建一个集群,然后使用“Remote Hadoop provisioner”将其连接到 Data Fusion 。

考虑到要使用此配置程序,您需要创建一个新的计算配置文件,该配置文件仅在Data Fusion Enterprise版本中可用。

要在集群中安装 py4j 库,您可以使用该库创建自定义映像,提供初始化操作脚本来安装它,或者通过 SSH 连接到机器并手动执行 pip install 命令。

于 2020-02-05T16:26:18.227 回答
0

是的,Tlaquetzal 是对的,基本上,您有两种方法可以实现这一目标。

  1. 使用固定集群并在 CDAP 中设置Remote Hadoop Provisioner

  2. 使用库创建自定义图像。

    #!/bin/bash
    apt-get update
    apt -y --force-yes install python3.7
    apt -y --force-yes  install python3-pip
    pip3 install py4j
    
    • 在 CDAP 计算配置文件中设置自定义映像,如下所示
于 2020-12-09T01:12:31.293 回答