问题标签 [spark-koalas]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

99 问题

0 投票

1 回答

1142 浏览

python - 基于另一个 COlumn 值 Lambda 函数的 Databricks Koalas 列分配

给定一个考拉数据框：

运行 lambda 函数以根据现有列值获取新列：

预期收益：

为什么这会将“高”分配给每个值。目的是对每一行进行操作，是否在比较中查看整列？

python databricks spark-koalas

2019-10-10T20:32:43.850

0 投票

0 回答

269 浏览

python - 当 Koalas 写入 Azure blob 存储时出现“SparkException：作业中止”

我正在使用 Koalas（Apache Spark 上的 pandas API）将数据帧写入已安装的 Azure blob 存储。调用 df.to_csv API 时，Spark 会引发异常并中止作业。

只有几个阶段似乎因以下错误而失败：

我正在使用 PySpark 在 Azure 上使用 Databricks 处理数据。数据产品驻留在已装载的 Azure Blob 存储中。制定了数据块的服务原则，并将其设置为 Azure 存储帐户的“参与者”。

查看存储帐户时，我注意到目录中已经准备了一些第一个 blob。此外，我可以使用带有 pandas 的“纯 Python”方法将输出放置在 blob 存储中。因此，我怀疑这与 Databricks 的授权问题有关。

这是我用来创建错误的最小编码示例。

由于这个问题有很多方面，我不确定从哪里开始：

Blob 存储和 Databricks 之间的授权问题
Databricks 集群设置不正确
应用错误的 API 方法
文件内容问题

关于在哪里看的任何线索？

python pandas pyspark azure-blob-storage spark-koalas

2019-10-23T13:27:50.477

0 投票

1 回答

188 浏览

python - 我需要在我的 Spark 集群的每个节点上安装 Koalas 还是只在主节点上安装 Koalas？

我在 Spark+AI 峰会上发现了考拉，它把熊猫带到了 Spark。

据我所知，如果我需要mapSpark 的第三方功能DataFrame，我必须在我的 Spark 集群的每个节点上安装该软件包。

考拉也是这样吗？或者我只需要pip install koalas在我的主节点上运行，让 Koalas 和 Spark 来处理其余的事情？

除了pip install koalas. _ _

python pandas apache-spark spark-koalas

2019-10-28T20:48:35.683

0 投票

0 回答

200 浏览

python - 无法对考拉数据帧执行操作

在 JupyterNotebook 中运行时无法获得任何输出。代码在安装了“WARNING:root:Found pyspark version "2.3.0" 的情况下持续运行。建议使用 pyspark>=2.4.0。”

以下是使用的库。

python pandas dataframe spark-koalas

2019-11-04T05:06:19.613

0 投票

1 回答

153 浏览

python - 使用 RGB 值调用 koalas.hist() 时如何更改颜色

我有一个考拉数据框。我想绘制一个直方图，但我想用一个 RGB 元组（r，g，b）来改变颜色。我怎样才能改变下面的代码来做到这一点？

python colormap spark-koalas

2019-11-05T23:41:33.047

0 投票

1 回答

99 浏览

python - PySpark 无法计算 Koalas DataFrame 中的按列标准差

我在 PySpark 中有一个考拉数据框。我想计算按列的标准差。我试过做：

我收到以下错误：

我也在做类似的事情：

这样做时出现此错误：

对考拉来说是全新的。任何人都可以提供一些想法吗？谢谢。

python pandas pyspark spark-koalas

2019-11-07T22:42:32.343

0 投票

1 回答

904 浏览

spark-koalas - 使用 assign 在 Koalas DataFrame 中添加新列

我有一个考拉数据框，我想通过使用两列计算来添加一个新列。我有一个单独的函数来进行计算并返回每行的新列的值。计算函数有点复杂。

df.assign(new_column=lambda x: self.calculate(x.col1, x.col2))

我的问题是x.col1和x.col2没有作为单独的行值传递，而是将整个列作为系列传递给计算函数，这会导致抛出 TypeError。

TypeError: float() argument must be a string or a number, not 'Series'

有人知道我如何解决这个问题吗？

谢谢

spark-koalas

2019-12-11T02:25:41.480

0 投票

0 回答

138 浏览

python-3.x - 无法在考拉中加载 JSON 文件，出现连接被拒绝错误

问题描述

我尝试使用加载 JSON 文件，koalas但它抛出连接被拒绝错误。如果我在这里遗漏任何东西，有人可以帮我解决这个问题吗？

包版本

代码片段

错误

python-3.x pyspark spark-koalas

2020-01-06T07:26:37.857

0 投票

1 回答

285 浏览

scala - scala notebook 无法导入考拉

这似乎很基本，但从我在 databricks 网站上看到的内容来看，我这边没有任何效果

我已经在我的集群上安装了 koalas 包但是当我尝试在我的 Scala 笔记本中导入包时，我遇到了问题。

如果我用 Python 做，一切正常

详细信息集群和笔记本

感谢您的帮助马特

scala databricks azure-databricks spark-koalas

2020-02-11T10:38:03.860

0 投票

1 回答

1296 浏览

python - 熊猫平行适用于考拉（pyspark）

我是 Koalas (pyspark) 的新手，我试图利用 Koalas 进行并行应用，但似乎它在整个操作中使用了一个内核（如果我错了，请纠正我）并最终使用 dask并行应用（使用 map_partition）效果很好。

但是，我想知道是否有办法利用考拉进行并行应用。

我使用基本代码进行如下操作。

python pandas pyspark dask spark-koalas

2020-02-11T16:00:46.683

1 2 3 4 5 6 7 8 9 10