问题标签 [spark-koalas]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

99 问题

0 投票

1 回答

216 浏览

python - 考拉 applymap 将所有数据移动到单个分区

我需要对 Koalas DataFrame 进行元素操作。为此，我使用Koalas applymap方法。在执行时，考拉将所有数据移动到一个分区，然后应用该操作。结果是工作的表现很差。

如何强制考拉不对数据进行shuffle，将操作应用到现有的partition中？

2020-05-29T11:19:07.693

0 投票

1 回答

130 浏览

python - 包含 .iloc 的代码不适用于 Koalas 数据框

根据https://databricks.com/notebooks/cnn-car-class/koalas-augmentation.html中的文档， iloc 函数可以与 koalas 数据框一起使用。

python pyspark apache-spark-sql databricks spark-koalas

2020-06-07T06:06:35.100

0 投票

1 回答

125 浏览

pandas - 如何运行 pandas-Koalas 程序起诉 spark-submit（windows）？

我有熊猫数据框（示例程序），转换后的考拉数据框，现在我要在火花集群（Windows 独立）上执行，当我尝试从命令提示符为

spark-submit --master local hello.py，出现错误 ModuleNotFoundError: No module named 'databricks'

我应该改变什么才能使用火花集群功能。我用 pandas 编写的实际程序做了很多事情，我想利用 spark 集群来查看性能改进。

pandas spark-koalas

2020-06-12T05:43:17.573

0 投票

1 回答

150 浏览

apache-spark - spark 2.4 如何安装考拉？

我想在 pyspark 上运行我的 pandas 代码，但为此我需要考拉。如何使用 spark 2.4 安装和使用考拉

apache-spark pyspark spark-koalas

2020-06-12T12:33:09.157

0 投票

1 回答

1348 浏览

pandas - Koalas GroupBy > Apply > Lambda > 系列

我正在尝试将一些代码从 Pandas 移植到 Koalas，以利用 Spark 的分布式处理。我正在获取一个数据框并将其分组到 A 和 B 上，然后应用一系列函数来填充新数据框的列。这是我在 Pandas 中使用的代码：

我相信它运行良好，并且生成的数据框在价值方面似乎是正确的。

我只有几个问题：

这个错误是否意味着我的方法将来会被弃用？ /databricks/spark/python/pyspark/sql/pandas/group_ops.py:76: UserWarning: It is preferred to use 'applyInPandas' over this API. This API will be deprecated in the future releases. See SPARK-28264 for more details.
如何将分组列重命名为“A”和“B”而不是"__groupkey_0__ __groupkey_1__"?
正如您所注意到的，我不得不调用 pd.Series ——有没有办法在考拉中做到这一点？调用 ks.Series 给我以下错误，我不确定如何实现： PandasNotImplementedError: The method `pd.Series.__iter__()` is not implemented. If you want to collect your data as an NumPy array, use 'to_numpy()' instead.

感谢您提供的任何帮助！

pandas pandas-groupby databricks pandas-apply spark-koalas

2020-07-06T17:32:27.767

0 投票

2 回答

632 浏览

pandas - koalas 列赋值不支持类型ndarray

全部 - 我正在尝试向现有的考拉数据框添加一个新列，但它失败并出现上述错误。我分配的值是一个 np 数组。我错过了什么吗？这适用于熊猫。

TypeError：列分配不支持类型 ndarray

我在这里错过了什么吗？

谢谢。

pandas spark-koalas

2020-07-09T17:52:02.993

0 投票

1 回答

118 浏览

apache-spark - 填充和插入考拉数据框

是否可以像这样在 Koalas 数据框中插入和填充不同的列？

apache-spark interpolation missing-data fill spark-koalas

2020-08-03T04:37:34.690

0 投票

1 回答

326 浏览

python - Pandas resample('D') 方法的 Spark/Koalas 实现

我有一个需要填充的 Spark 数据框。数据框的大小很大（> 1 亿行）。我可以使用 pandas 实现我想要的，如下所示。

.resample('D')我在尝试使用考拉时被卡住了。有没有更好的替代方法来填充火花本机函数中的复制逻辑？原因是，我想避免使用 pandas，因为它不是分布式的并且仅在驱动程序节点上执行。

如何使用 Spark/Koalas 包实现与上述相同的功能？

python apache-spark pyspark databricks spark-koalas

2020-08-03T22:07:00.097

0 投票

1 回答

1193 浏览

pandas - 如何将熊猫数据框转换为具有混合数据类型的考拉

我正在使用 Azure Databricks 将熊猫数据框转换为考拉数据框...

这会导致错误消息“需要整数（获取类型 str）”

我尝试添加一个 dtype 的 str 来强制 koalas 数据帧为字符串类型。..

添加 dtype 在使用 databricks 扩展的 vs 代码中完美工作，但在 azure databricks 工作区中执行时会导致AssertionError 。

似乎 azure databricks 必须使用与 vs code databricks 扩展不同版本的考拉。

我怎样才能让它在 azure databricks 中工作？

如何找出 koalas azure databricks 使用的版本以及 databricks 与代码扩展使用的 koalas 版本？

我不能只使用pip list来查找 koalas 的 vs code 版本，因为它是扩展，而不是已安装的包。

对此的任何帮助将不胜感激

劳拉

pandas dataframe azure-databricks spark-koalas

2020-08-15T21:10:31.793

0 投票

2 回答

962 浏览

python - 如何创建空的考拉df

我正在尝试使用以下命令创建空的 Koalas DataFrame

但我收到以下错误

ValueError: can not infer schema from empty or null dataset

我也尝试了以下命令，但发现了类似的错误

如果有人可以帮助我，我将不胜感激。

python spark-koalas

2020-08-24T11:58:56.263

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-koalas]

Reference