问题标签 [spark-koalas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 基于另一个 COlumn 值 Lambda 函数的 Databricks Koalas 列分配
给定一个考拉数据框:
运行 lambda 函数以根据现有列值获取新列:
预期收益:
为什么这会将“高”分配给每个值。目的是对每一行进行操作,是否在比较中查看整列?
python - 当 Koalas 写入 Azure blob 存储时出现“SparkException:作业中止”
我正在使用 Koalas(Apache Spark 上的 pandas API)将数据帧写入已安装的 Azure blob 存储。调用 df.to_csv API 时,Spark 会引发异常并中止作业。
只有几个阶段似乎因以下错误而失败:
我正在使用 PySpark 在 Azure 上使用 Databricks 处理数据。数据产品驻留在已装载的 Azure Blob 存储中。制定了数据块的服务原则,并将其设置为 Azure 存储帐户的“参与者”。
查看存储帐户时,我注意到目录中已经准备了一些第一个 blob。此外,我可以使用带有 pandas 的“纯 Python”方法将输出放置在 blob 存储中。因此,我怀疑这与 Databricks 的授权问题有关。
这是我用来创建错误的最小编码示例。
由于这个问题有很多方面,我不确定从哪里开始:
Blob 存储和 Databricks 之间的授权问题
Databricks 集群设置不正确
应用错误的 API 方法
文件内容问题
关于在哪里看的任何线索?
python - 无法对考拉数据帧执行操作
在 JupyterNotebook 中运行时无法获得任何输出。代码在安装了“WARNING:root:Found pyspark version "2.3.0" 的情况下持续运行。建议使用 pyspark>=2.4.0。”
以下是使用的库。
python - PySpark 无法计算 Koalas DataFrame 中的按列标准差
我在 PySpark 中有一个考拉数据框。我想计算按列的标准差。我试过做:
我收到以下错误:
我也在做类似的事情:
这样做时出现此错误:
对考拉来说是全新的。任何人都可以提供一些想法吗?谢谢。
spark-koalas - 使用 assign 在 Koalas DataFrame 中添加新列
我有一个考拉数据框,我想通过使用两列计算来添加一个新列。我有一个单独的函数来进行计算并返回每行的新列的值。计算函数有点复杂。
df.assign(new_column=lambda x: self.calculate(x.col1, x.col2))
我的问题是x.col1和x.col2没有作为单独的行值传递,而是将整个列作为系列传递给计算函数,这会导致抛出 TypeError。
TypeError: float() argument must be a string or a number, not 'Series'
有人知道我如何解决这个问题吗?
谢谢
python-3.x - 无法在考拉中加载 JSON 文件,出现连接被拒绝错误
问题描述
我尝试使用加载 JSON 文件,koalas
但它抛出连接被拒绝错误。如果我在这里遗漏任何东西,有人可以帮我解决这个问题吗?
包版本
代码片段
错误
scala - scala notebook 无法导入考拉
这似乎很基本,但从我在 databricks 网站上看到的内容来看,我这边没有任何效果
我已经在我的集群上安装了 koalas 包但是当我尝试在我的 Scala 笔记本中导入包时,我遇到了问题。
如果我用 Python 做,一切正常
感谢您的帮助马特
python - 熊猫平行适用于考拉(pyspark)
我是 Koalas (pyspark) 的新手,我试图利用 Koalas 进行并行应用,但似乎它在整个操作中使用了一个内核(如果我错了,请纠正我)并最终使用 dask并行应用(使用 map_partition)效果很好。
但是,我想知道是否有办法利用考拉进行并行应用。
我使用基本代码进行如下操作。