问题标签 [spark-koalas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
216 浏览

python - 考拉 applymap 将所有数据移动到单个分区

我需要对 Koalas DataFrame 进行元素操作。为此,我使用Koalas applymap方法。在执行时,考拉将所有数据移动到一个分区,然后应用该操作。结果是工作的表现很差。

如何强制考拉不对数据进行shuffle,将操作应用到现有的partition中?

0 投票
1 回答
130 浏览

python - 包含 .iloc 的代码不适用于 Koalas 数据框

根据https://databricks.com/notebooks/cnn-car-class/koalas-augmentation.html中的文档, iloc 函数可以与 koalas 数据框一起使用。

0 投票
1 回答
125 浏览

pandas - 如何运行 pandas-Koalas 程序起诉 spark-submit(windows)?

我有熊猫数据框(示例程序),转换后的考拉数据框,现在我要在火花集群(Windows 独立)上执行,当我尝试从命令提示符为

spark-submit --master local hello.py,出现错误 ModuleNotFoundError: No module named 'databricks'

我应该改变什么才能使用火花集群功能。我用 pandas 编写的实际程序做了很多事情,我想利用 spark 集群来查看性能改进。

0 投票
1 回答
150 浏览

apache-spark - spark 2.4 如何安装考拉?

我想在 pyspark 上运行我的 pandas 代码,但为此我需要考拉。如何使用 spark 2.4 安装和使用考拉

0 投票
1 回答
1348 浏览

pandas - Koalas GroupBy > Apply > Lambda > 系列

我正在尝试将一些代码从 Pandas 移植到 Koalas,以利用 Spark 的分布式处理。我正在获取一个数据框并将其分组到 A 和 B 上,然后应用一系列函数来填充新数据框的列。这是我在 Pandas 中使用的代码:

我相信它运行良好,并且生成的数据框在价值方面似乎是正确的。

我只有几个问题:

  1. 这个错误是否意味着我的方法将来会被弃用? /databricks/spark/python/pyspark/sql/pandas/group_ops.py:76: UserWarning: It is preferred to use 'applyInPandas' over this API. This API will be deprecated in the future releases. See SPARK-28264 for more details.

  2. 如何将分组列重命名为“A”和“B”而不是"__groupkey_0__ __groupkey_1__"?

  3. 正如您所注意到的,我不得不调用 pd.Series ——有没有办法在考拉中做到这一点?调用 ks.Series 给我以下错误,我不确定如何实现: PandasNotImplementedError: The method `pd.Series.__iter__()` is not implemented. If you want to collect your data as an NumPy array, use 'to_numpy()' instead.

感谢您提供的任何帮助!

0 投票
2 回答
632 浏览

pandas - koalas 列赋值不支持类型ndarray

全部 - 我正在尝试向现有的考拉数据框添加一个新列,但它失败并出现上述错误。我分配的值是一个 np 数组。我错过了什么吗?这适用于熊猫。

TypeError:列分配不支持类型 ndarray

我在这里错过了什么吗?

谢谢。

0 投票
1 回答
118 浏览

apache-spark - 填充和插入考拉数据框

是否可以像这样在 Koalas 数据框中插入和填充不同的列?

0 投票
1 回答
326 浏览

python - Pandas resample('D') 方法的 Spark/Koalas 实现

我有一个需要填充的 Spark 数据框。数据框的大小很大(> 1 亿行)。我可以使用 pandas 实现我想要的,如下所示。

.resample('D')我在尝试使用考拉时被卡住了。有没有更好的替代方法来填充火花本机函数中的复制逻辑?原因是,我想避免使用 pandas,因为它不是分布式的并且仅在驱动程序节点上执行。

如何使用 Spark/Koalas 包实现与上述相同的功能?

0 投票
1 回答
1193 浏览

pandas - 如何将熊猫数据框转换为具有混合数据类型的考拉

我正在使用 Azure Databricks 将熊猫数据框转换为考拉数据框...

这会导致错误消息“需要整数(获取类型 str)”

我尝试添加一个 dtype 的 str 来强制 koalas 数据帧为字符串类型。..

添加 dtype 在使用 databricks 扩展的 vs 代码中完美工作,但在 azure databricks 工作区中执行时会导致AssertionError 。

似乎 azure databricks 必须使用与 vs code databricks 扩展不同版本的考拉。

我怎样才能让它在 azure databricks 中工作?

如何找出 koalas azure databricks 使用的版本以及 databricks 与代码扩展使用的 koalas 版本?

我不能只使用pip list来查找 koalas 的 vs code 版本,因为它是扩展,而不是已安装的包。

对此的任何帮助将不胜感激

劳拉

0 投票
2 回答
962 浏览

python - 如何创建空的考拉df

我正在尝试使用以下命令创建空的 Koalas DataFrame

但我收到以下错误

ValueError: can not infer schema from empty or null dataset

我也尝试了以下命令,但发现了类似的错误

如果有人可以帮助我,我将不胜感激。