问题标签 [cdsw]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
80 浏览

pyspark - CDSW/CDP 中的 PySpark 内存使用情况

如果我创建如下所示的 pyspark 数据框,该 pyspark 数据框会占用 CDSW 内存(如 pandas 数据框)吗?还是会从 CDP 中获取内存?

在创建如下所示的大型 pyspark 数据框时,我遇到了内存问题。

0 投票
0 回答
52 浏览

python - f-string 导致 CDSW/linux 上的换行错误

我在 python (3.6.1) 中有一个奇怪的问题:

但这不适用于 Cloudera Data Science Workbench(一个 unix 系统):

在 Windows 上,我无法重现该问题,而且它在 CDSW 上也不是问题。有没有人遇到过类似的问题,或者可以指出可能导致此类问题的原因?


有趣的是,这也有效:

要跟进评论:

0 投票
1 回答
400 浏览

python - 错误:您必须提供至少一项安装要求 - CDSW

我正在尝试在我的 cdsw 环境中安装软件包。我已将软件包放在我的 cd /home/ 文件夹中,并且正在运行以下命令:

我收到以下错误:错误:您必须至少给出一个安装要求(也许您的意思是“pip install /home/cdsw/Package/scipy-1.7.1-cp37-cp37m-manylinux_2_5_i686.manylinux1_i686.whl”?)

Linux 版本:4.4 Python 2:Python 2.7.11 Python 3:Python 3.6.1 Java:openjdk 版本“1.8.0_211”

我该如何解决这个问题。

0 投票
1 回答
235 浏览

python - 在没有 sudo 的 Cloudera CDSW 上安装 python 3.9

我正在尝试在 Cloudera Data Science Workbench (cdsw) 中的 Linux 4.4 上安装 Python 3.9。我没有 sudo 权限,我将无法连接到任何网站。
当前版本的 python 是 3.6
按照这里提到的过程。

但是,在步骤“sudo make altinstall”上,我在 /usr/local/bin 上收到错误“permission denied”

是否有任何解决方法可以使这一步起作用?这是整个过程的最后一步。

0 投票
2 回答
38 浏览

python - 在 R 中编写字典加法函数

我需要在 R 中编写与以下代码等效的代码,但我不太确定如何去做:

原因是因为对于我正在使用的平台(Cloudera Data Science Workbench)模型需要 JSON 输入才能使用 API 密钥调用它们

因此,如果我在 R 中编写一个测试模型,例如:

我无法使用该httr软件包进行像 {"x" : 2, "y" : 4} 这样的调用。

所以我要么需要制作一个字典,比如调用 R 中的函数

或者

我只是错误地调用 JSON,在这种情况下,有人可以帮我正确格式化 API 调用

谢谢

0 投票
0 回答
29 浏览

apache-spark - Pyspark 没有创建 SparkContext (Yarn)。网关错误或网络流量受阻?

这是我安装 pyspark 二进制文件的一些上下文。

在我的公司,我们使用 Cloudera Data Science Workbench (CDSW)。当我们为新项目创建会话时,我猜它是来自特定 Dockerfile 的图像。并且在这个 dockerfile 中推送了 CDH 二进制文件的安装和配置。

现在我希望在 CDSW 之外使用这些配置。我有一个 Kubernetes 集群,我在其中部署 web 应用程序。我想在 Yarn 模式下使用 spark 为 webapps 部署非常小的资源。

我所做的是将 tar.gz 中的所有二进制文件和配置文件/opt/cloudera/parcels/CDH-6.3.4-1.cdh6.3.4.p4484.8795072/var/lib/cdsw/client-config/. 然后在容器或 WSL2 实例中解压缩它们。

我没有像我应该做的那样把所有东西都拆开包装,而是把它们/var/放在and中。我为什么这样做?因为我可能想在我的 kubernetes 中使用挂载的卷并在容器之间共享二进制文件。/opt/$HOME/opt/cloudera/parcels/CDH-6.3.4-1.cdh6.3.4.p4484.8795072/*$USER/etc/client-config/*

我已经sed修改了所有配置文件以适应路径:

  • 火花环境.sh
  • 拓扑.py
  • 任何 *.txt、*.sh、*.py

所以我设法beeline hadoop hdfs hbase用文件夹指向它们hadoop-conf。我可以使用pyspark,但只能在本地模式下使用。但我真正想要的是使用pysparkwith yarn

所以我设置了一堆环境变量来完成这项工作:

无论如何,所有路径都存在并且有效。而且由于我已经 sed 了所有配置文件,它们也会生成与导出的相同的路径。

我像这样启动我的 pyspark 二进制文件:

仅供参考,它使用的是 pyspark 2.4.0。我已经安装了Java(TM) SE Runtime Environment (build 1.8.0_131-b11). 我在 CDSW 实例上找到的相同。我用公司的公共证书添加了密钥库。而且我还为 kerberos 身份验证生成了一个密钥表。他们两个都在工作,因为我可以hdfs使用HADOOP_CONF_DIR=$HOME/etc/client-config/hadoop-conf

在详细模式下,我可以看到 spark 的所有细节和配置。当我从 CDSW 会话中比较它时,它们完全相同(修改了路径,例如:

几秒钟后,它无法创建sparkSession

据我了解,它因我不确定的原因而失败,然后尝试退回到其他模式。那也失败了。

在配置文件spark-conf/yarn-conf/yarn-site.xml中,指定它使用的是zookeeper

会不会是 Yarn 集群不接受来自随机 IP(kuber IP 或来自计算机的个人 IP)的流量?对我来说,我正在处理的 IP 不在白名单上,但目前我无法要求将我的 IP 添加到白名单中。我怎么能确定我正在寻找好的方向?

编辑1:

正如评论中所说,的URIpyspark.zip是错误的。我已经修改了我PYSPARK_ARCHIVES_PATH的真实位置pyspark.zip

现在我得到一个错误UnknownHostException