问题标签 [cdsw]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

16 问题

0 投票

1 回答

1055 浏览

json - 使用 PySpark 从 Cloudera CDSW 项目中读取文件

我的 Cloudera 项目中有一个文件位于“/home/cdsw/npi.json”下。我尝试使用以下命令来使用 PySpark 从我的“本地”CDSW 项目中读取数据，但无法使用以下任何命令进行读取。他们都抛出“路径不存在：”错误

2018-10-30T18:31:47.803

0 投票

1 回答

498 浏览

cloudera - 在 cdsw 中获取状态作业

我在 CDSW“Cloudera-Data-Science-Workbench”中有一些 R 和 python 脚本。我创建了一个 shell 脚本来运行它curl -v -XPOST。

如何从 API CDSW 获取作业状态？

cloudera cdsw

2018-11-28T15:01:48.907

0 投票

1 回答

1081 浏览

oracle - pyspark 读取格式 jdbc 生成 ORA-00903: invalid table name 错误

通过在远程服务器上运行 pysqpark，我可以使用 jdbc 连接到另一台服务器上的 Oracle 数据库，但是我运行的任何有效查询都会返回ORA-00903: invalid table name Error.

我可以使用cx_Oracle或从本地计算机连接到数据库pyodbc。当我从本地连接时，那些返回上述错误的查询运行没有问题。

我已经改变了我在本地或远程运行的查询，但无论我运行什么类型的有效查询

以下是我尝试过的一些查询的变体。基本上，我想我已经用尽了大写/小写表格和视图名称的组合，以或不以;.

最后，通过上述设置，我运行以下 pyspark 命令：

这导致了错误（完全）：

我的直觉是，这不是我的代码中的内容，而是服务器或驱动程序中的一些设置，我不知道如何访问或控制。

如果有人能告诉我如何调试问题或直接修复它，我将不胜感激。谢谢你。

oracle apache-spark jdbc pyspark cdsw

2019-09-05T09:05:00.023

0 投票

1 回答

117 浏览

hive - RJDBC 配置单元，连接失败

我按照多个教程尝试使用 RJDBC 连接到 Hive，但没有成功。

这是我所拥有的：

我已经下载并放置在"/home/cdsw/R/"文件jar中。

我也尝试过最新版本，但始终与相同的 Cloudera 版本同步。即使我的版本是 5.XX。

我很确定这HOSTNAME是正确的，因为我已经让它impyla在 Python 中使用相同的主机名/端口。

错误：

.jcall(drv@jdrv, "Ljava/sql/Connection;", "connect", as.character(url)[1], 中的错误：java.lang.NoClassDefFoundError: org/apache/thrift/TException

据我了解，我没有正确.jar的 s?

评论：

因为我不是 root，所以我无法在机器上安装 hive-jdbc。既然我已经把它 hive-jdbc-1.1.0-cdh5.16.99.jar放在一个文件夹中，我可以不用它吗？

另外，Kerberos 会触发这个错误吗？

hive rjava rjdbc cdsw

2020-02-03T11:03:57.643

0 投票

2 回答

40 浏览

dataframe - 对象不可调用错误 | 哪里功能

我正在尝试运行以下查询：

我得到如下所示的错误：

TypeError：“列”对象不可调用 TypeError
Traceback（最近一次调用最后一次）

查询有什么问题，我该如何解决？

dataframe apache-spark-sql pyspark-sql cdsw

2020-02-14T09:48:51.057

0 投票

1 回答

332 浏览

python-3.x - CDSW 上的相对进口

我有一个关于 CDSW 的项目，组织如下：

在我当前的代码中，我sys.path.append用来执行我的导入。

这很好用，但这是一个不好的做法，因为如果版本发生变化，那么我需要更改所有使用该路径的脚本。

我想用一些相对路径替换它：

但我得到了错误：

我需要在架构或代码中进行哪些更改才能使其正常工作？

python-3.x relative-import cdsw

2020-05-12T09:02:58.550

0 投票

0 回答

85 浏览

dataframe - 将数据帧转换为 csv 会引发错误 pyspark

我有大约 7GB 记录的巨大数据框。我正在尝试获取数据帧的计数并将其下载为 csv 它们都导致以下错误。有没有其他方法可以在没有多个分区的情况下下载数据帧

dataframe apache-spark pyspark pyspark-dataframes cdsw

2020-05-26T20:03:26.597

0 投票

0 回答

73 浏览

python - 如何在csv文件中传递structtype

我有大约 300 个变量，我正在尝试通过 csv 传递 customschema。下面是我正在使用的示例代码。但是在通过 csv 文件上传架构时...输出不包含列列表：

CSV 中的代码：

您能否立即提供通过 csv 文件上传架构的权限？

python apache-spark pyspark apache-spark-sql cdsw

2021-04-26T10:32:15.563

0 投票

0 回答

48 浏览

python - Rename new column function testing

I am testing the below "if mode" that someone has written by input values to see if function is working as expected

I wrote the below unit test code and my issue is the function is wrong or am I inputing wrong values or the logic I put in is wrong: below is the unit testing I ran and its failing

I am getting an error:

Any help can provide to fix this issue would be really appreciated. Thanking you in advance

python pyspark rename columnsorting cdsw

2021-06-29T05:08:11.037

0 投票

0 回答

18 浏览

r - Cloudera Workbench 字符串编码问题

我正在从我的同事从他的本地窗口推送 R 代码的 git 存储库中提取更改

该代码包含奇怪的字母，例如“德语变音符号”，例如上例中的“ä”。在 Windows 上，这工作正常。但是当我在 Cloudera Data Science Workbench 上打开相同的代码时，它弄乱了特殊字符：

我可以手动替换它，但这显然是一个非常痛苦的解决方案，并且违背了 git 的目的。有什么办法可以规避这个问题吗？在此处找到原始 R 代码，从 Windows 机器推送到 Git，其中包含导致问题的所有行。

r encoding character-encoding cloudera cdsw

2021-07-06T09:59:47.183

1 2 3 4 5 6 7 8 9 10

问题标签 [cdsw]

Reference