google-cloud-platform - 在 GCP Data Fusion 的 pythonEvaluator 转换中运行 pip install py4j

Question

我正在尝试在 Python Evaluator 的本机模式下运行“pip install py4j”。我找不到可以运行此命令来安装依赖项的位置。无法在网络上的任何地方找到解决方案。请指导我在数据融合中执行此命令。

提前致谢！

score 1 · Accepted Answer

没有直接的方法可以解决此问题，因为您无法修改管道内执行中使用的 Dataproc 集群。所以，如果你真的需要在 Native 模式下使用 Python 插件，我的建议是使用 py4j 库创建一个集群，然后使用“Remote Hadoop provisioner”将其连接到 Data Fusion 。

考虑到要使用此配置程序，您需要创建一个新的计算配置文件，该配置文件仅在Data Fusion Enterprise版本中可用。

要在集群中安装 py4j 库，您可以使用该库创建自定义映像，提供初始化操作脚本来安装它，或者通过 SSH 连接到机器并手动执行 pip install 命令。

score 0 · Accepted Answer

是的，Tlaquetzal 是对的，基本上，您有两种方法可以实现这一目标。

使用固定集群并在 CDAP 中设置Remote Hadoop Provisioner
使用库创建自定义图像。
- 使用库文档创建自定义图像
```
#!/bin/bash
apt-get update
apt -y --force-yes install python3.7
apt -y --force-yes  install python3-pip
pip3 install py4j
```
- 在 CDAP 计算配置文件中设置自定义映像，如下所示

google-cloud-platform - 在 GCP Data Fusion 的 pythonEvaluator 转换中运行 pip install py4j

2 回答 2

Related

Reference