问题标签 [spark-koalas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1142 浏览

python - 基于另一个 COlumn 值 Lambda 函数的 Databricks Koalas 列分配

给定一个考拉数据框:

运行 lambda 函数以根据现有列值获取新列:

预期收益:

为什么这会将“高”分配给每个值。目的是对每一行进行操作,是否在比较中查看整列?

0 投票
0 回答
269 浏览

python - 当 Koalas 写入 Azure blob 存储时出现“SparkException:作业中止”

我正在使用 Koalas(Apache Spark 上的 pandas API)将数据帧写入已安装的 Azure blob 存储。调用 df.to_csv API 时,Spark 会引发异常并中止作业。

只有几个阶段似乎因以下错误而失败:

我正在使用 PySpark 在 Azure 上使用 Databricks 处理数据。数据产品驻留在已装载的 Azure Blob 存储中。制定了数据块的服务原则,并将其设置为 Azure 存储帐户的“参与者”。

查看存储帐户时,我注意到目录中已经准备了一些第一个 blob。此外,我可以使用带有 pandas 的“纯 Python”方法将输出放置在 blob 存储中。因此,我怀疑这与 Databricks 的授权问题有关。

这是我用来创建错误的最小编码示例。

由于这个问题有很多方面,我不确定从哪里开始:

  • Blob 存储和 Databricks 之间的授权问题

  • Databricks 集群设置不正确

  • 应用错误的 API 方法

  • 文件内容问题

关于在哪里看的任何线索?

0 投票
1 回答
188 浏览

python - 我需要在我的 Spark 集群的每个节点上安装 Koalas 还是只在主节点上安装 Koalas?

我在 Spark+AI 峰会上发现了考拉,它把熊猫带到了 Spark。

据我所知,如果我需要mapSpark 的第三方功能DataFrame,我必须在我的 Spark 集群的每个节点上安装该软件包。

考拉也是这样吗?或者我只需要pip install koalas在我的主节点上运行,让 Koalas 和 Spark 来处理其余的事情?

除了pip install koalas. _ _

0 投票
0 回答
200 浏览

python - 无法对考拉数据帧执行操作

在 JupyterNotebook 中运行时无法获得任何输出。代码在安装了“WARNING:root:Found pyspark version "2.3.0" 的情况下持续运行。建议使用 pyspark>=2.4.0。”

以下是使用的库。

0 投票
1 回答
153 浏览

python - 使用 RGB 值调用 koalas.hist() 时如何更改颜色

我有一个考拉数据框。我想绘制一个直方图,但我想用一个 RGB 元组(r,g,b)来改变颜色。我怎样才能改变下面的代码来做到这一点?

在此处输入图像描述

0 投票
1 回答
99 浏览

python - PySpark 无法计算 Koalas DataFrame 中的按列标准差

我在 PySpark 中有一个考拉数据框。我想计算按列的标准差。我试过做:

我收到以下错误:

我也在做类似的事情:

这样做时出现此错误:

对考拉来说是全新的。任何人都可以提供一些想法吗?谢谢。

0 投票
1 回答
904 浏览

spark-koalas - 使用 assign 在 Koalas DataFrame 中添加新列

我有一个考拉数据框,我想通过使用两列计算来添加一个新列。我有一个单独的函数来进行计算并返回每行的新列的值。计算函数有点复杂。

df.assign(new_column=lambda x: self.calculate(x.col1, x.col2))

我的问题是x.col1x.col2没有作为单独的行值传递,而是将整个列作为系列传递给计算函数,这会导致抛出 TypeError。

TypeError: float() argument must be a string or a number, not 'Series'

有人知道我如何解决这个问题吗?

谢谢

0 投票
0 回答
138 浏览

python-3.x - 无法在考拉中加载 JSON 文件,出现连接被拒绝错误

问题描述

我尝试使用加载 JSON 文件,koalas但它抛出连接被拒绝错误。如果我在这里遗漏任何东西,有人可以帮我解决这个问题吗?

包版本

代码片段

错误

0 投票
1 回答
285 浏览

scala - scala notebook 无法导入考拉

这似乎很基本,但从我在 databricks 网站上看到的内容来看,我这边没有任何效果

我已经在我的集群上安装了 koalas 包但是当我尝试在我的 Scala 笔记本中导入包时,我遇到了问题。

如果我用 Python 做,一切正常

详细信息集群和笔记本

感谢您的帮助马特

0 投票
1 回答
1296 浏览

python - 熊猫平行适用于考拉(pyspark)

我是 Koalas (pyspark) 的新手,我试图利用 Koalas 进行并行应用,但似乎它在整个操作中使用了一个内核(如果我错了,请纠正我)并最终使用 dask并行应用(使用 map_partition)效果很好。

但是,我想知道是否有办法利用考拉进行并行应用。

我使用基本代码进行如下操作。