问题标签 [cdsw]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

16 问题

0 投票

0 回答

80 浏览

pyspark - CDSW/CDP 中的 PySpark 内存使用情况

如果我创建如下所示的 pyspark 数据框，该 pyspark 数据框会占用 CDSW 内存（如 pandas 数据框）吗？还是会从 CDP 中获取内存？

在创建如下所示的大型 pyspark 数据框时，我遇到了内存问题。

2021-07-25T08:54:44.703

0 投票

0 回答

52 浏览

python - f-string 导致 CDSW/linux 上的换行错误

我在 python (3.6.1) 中有一个奇怪的问题：

但这不适用于 Cloudera Data Science Workbench（一个 unix 系统）：

在 Windows 上，我无法重现该问题，而且它在 CDSW 上也不是问题。有没有人遇到过类似的问题，或者可以指出可能导致此类问题的原因？

有趣的是，这也有效：

要跟进评论：

python linux cdsw

2021-07-29T15:49:36.723

0 投票

1 回答

400 浏览

python - 错误：您必须提供至少一项安装要求 - CDSW

我正在尝试在我的 cdsw 环境中安装软件包。我已将软件包放在我的 cd /home/ 文件夹中，并且正在运行以下命令：

我收到以下错误：错误：您必须至少给出一个安装要求（也许您的意思是“pip install /home/cdsw/Package/scipy-1.7.1-cp37-cp37m-manylinux_2_5_i686.manylinux1_i686.whl”？）

Linux 版本：4.4 Python 2：Python 2.7.11 Python 3：Python 3.6.1 Java：openjdk 版本“1.8.0_211”

我该如何解决这个问题。

python pip cloudera cdsw

2021-08-18T08:53:07.817

0 投票

1 回答

235 浏览

python - 在没有 sudo 的 Cloudera CDSW 上安装 python 3.9

我正在尝试在 Cloudera Data Science Workbench (cdsw) 中的 Linux 4.4 上安装 Python 3.9。我没有 sudo 权限，我将无法连接到任何网站。
当前版本的 python 是 3.6
按照这里提到的过程。

但是，在步骤“sudo make altinstall”上，我在 /usr/local/bin 上收到错误“permission denied”

是否有任何解决方法可以使这一步起作用？这是整个过程的最后一步。

python python-3.x cloudera cdsw

2021-08-19T07:43:11.767

0 投票

2 回答

38 浏览

python - 在 R 中编写字典加法函数

我需要在 R 中编写与以下代码等效的代码，但我不太确定如何去做：

原因是因为对于我正在使用的平台（Cloudera Data Science Workbench）模型需要 JSON 输入才能使用 API 密钥调用它们

因此，如果我在 R 中编写一个测试模型，例如：

我无法使用该httr软件包进行像 {"x" : 2, "y" : 4} 这样的调用。

所以我要么需要制作一个字典，比如调用 R 中的函数

或者

我只是错误地调用 JSON，在这种情况下，有人可以帮我正确格式化 API 调用

谢谢

python r json cdsw

2021-10-07T13:56:39.437

0 投票

0 回答

29 浏览

apache-spark - Pyspark 没有创建 SparkContext (Yarn)。网关错误或网络流量受阻？

这是我安装 pyspark 二进制文件的一些上下文。

在我的公司，我们使用 Cloudera Data Science Workbench (CDSW)。当我们为新项目创建会话时，我猜它是来自特定 Dockerfile 的图像。并且在这个 dockerfile 中推送了 CDH 二进制文件的安装和配置。

现在我希望在 CDSW 之外使用这些配置。我有一个 Kubernetes 集群，我在其中部署 web 应用程序。我想在 Yarn 模式下使用 spark 为 webapps 部署非常小的资源。

我所做的是将 tar.gz 中的所有二进制文件和配置文件/opt/cloudera/parcels/CDH-6.3.4-1.cdh6.3.4.p4484.8795072和/var/lib/cdsw/client-config/. 然后在容器或 WSL2 实例中解压缩它们。

我没有像我应该做的那样把所有东西都拆开包装，而是把它们/var/放在and中。我为什么这样做？因为我可能想在我的 kubernetes 中使用挂载的卷并在容器之间共享二进制文件。/opt/$HOME/opt/cloudera/parcels/CDH-6.3.4-1.cdh6.3.4.p4484.8795072/*$USER/etc/client-config/*

我已经sed修改了所有配置文件以适应路径：

火花环境.sh
拓扑.py
任何 *.txt、*.sh、*.py

所以我设法beeline hadoop hdfs hbase用文件夹指向它们hadoop-conf。我可以使用pyspark，但只能在本地模式下使用。但我真正想要的是使用pysparkwith yarn。

所以我设置了一堆环境变量来完成这项工作：

无论如何，所有路径都存在并且有效。而且由于我已经 sed 了所有配置文件，它们也会生成与导出的相同的路径。

我像这样启动我的 pyspark 二进制文件：

仅供参考，它使用的是 pyspark 2.4.0。我已经安装了Java(TM) SE Runtime Environment (build 1.8.0_131-b11). 我在 CDSW 实例上找到的相同。我用公司的公共证书添加了密钥库。而且我还为 kerberos 身份验证生成了一个密钥表。他们两个都在工作，因为我可以hdfs使用HADOOP_CONF_DIR=$HOME/etc/client-config/hadoop-conf

在详细模式下，我可以看到 spark 的所有细节和配置。当我从 CDSW 会话中比较它时，它们完全相同（修改了路径，例如：

几秒钟后，它无法创建sparkSession：

据我了解，它因我不确定的原因而失败，然后尝试退回到其他模式。那也失败了。

在配置文件spark-conf/yarn-conf/yarn-site.xml中，指定它使用的是zookeeper：

会不会是 Yarn 集群不接受来自随机 IP（kuber IP 或来自计算机的个人 IP）的流量？对我来说，我正在处理的 IP 不在白名单上，但目前我无法要求将我的 IP 添加到白名单中。我怎么能确定我正在寻找好的方向？

编辑1：

正如评论中所说，的URIpyspark.zip是错误的。我已经修改了我PYSPARK_ARCHIVES_PATH的真实位置pyspark.zip。

现在我得到一个错误UnknownHostException：

apache-spark hadoop pyspark cloudera-cdh cdsw

2022-02-22T15:07:13.467

1 2 3 4 5 6 7 8 9 10

问题标签 [cdsw]

pyspark - CDSW/CDP 中的 PySpark 内存使用情况

python - f-string 导致 CDSW/linux 上的换行错误

python - 错误：您必须提供至少一项安装要求 - CDSW

python - 在没有 sudo 的 Cloudera CDSW 上安装 python 3.9

python - 在 R 中编写字典加法函数

apache-spark - Pyspark 没有创建 SparkContext (Yarn)。网关错误或网络流量受阻？

Reference