问题标签 [spark-koalas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 考拉 applymap 将所有数据移动到单个分区
我需要对 Koalas DataFrame 进行元素操作。为此,我使用Koalas applymap方法。在执行时,考拉将所有数据移动到一个分区,然后应用该操作。结果是工作的表现很差。
如何强制考拉不对数据进行shuffle,将操作应用到现有的partition中?
python - 包含 .iloc 的代码不适用于 Koalas 数据框
根据https://databricks.com/notebooks/cnn-car-class/koalas-augmentation.html中的文档, iloc 函数可以与 koalas 数据框一起使用。
pandas - 如何运行 pandas-Koalas 程序起诉 spark-submit(windows)?
我有熊猫数据框(示例程序),转换后的考拉数据框,现在我要在火花集群(Windows 独立)上执行,当我尝试从命令提示符为
spark-submit --master local hello.py,出现错误 ModuleNotFoundError: No module named 'databricks'
我应该改变什么才能使用火花集群功能。我用 pandas 编写的实际程序做了很多事情,我想利用 spark 集群来查看性能改进。
apache-spark - spark 2.4 如何安装考拉?
我想在 pyspark 上运行我的 pandas 代码,但为此我需要考拉。如何使用 spark 2.4 安装和使用考拉
pandas - Koalas GroupBy > Apply > Lambda > 系列
我正在尝试将一些代码从 Pandas 移植到 Koalas,以利用 Spark 的分布式处理。我正在获取一个数据框并将其分组到 A 和 B 上,然后应用一系列函数来填充新数据框的列。这是我在 Pandas 中使用的代码:
我相信它运行良好,并且生成的数据框在价值方面似乎是正确的。
我只有几个问题:
这个错误是否意味着我的方法将来会被弃用?
/databricks/spark/python/pyspark/sql/pandas/group_ops.py:76: UserWarning: It is preferred to use 'applyInPandas' over this API. This API will be deprecated in the future releases. See SPARK-28264 for more details.
如何将分组列重命名为“A”和“B”而不是
"__groupkey_0__ __groupkey_1__"?
正如您所注意到的,我不得不调用 pd.Series ——有没有办法在考拉中做到这一点?调用 ks.Series 给我以下错误,我不确定如何实现:
PandasNotImplementedError: The method `pd.Series.__iter__()` is not implemented. If you want to collect your data as an NumPy array, use 'to_numpy()' instead.
感谢您提供的任何帮助!
pandas - koalas 列赋值不支持类型ndarray
全部 - 我正在尝试向现有的考拉数据框添加一个新列,但它失败并出现上述错误。我分配的值是一个 np 数组。我错过了什么吗?这适用于熊猫。
TypeError:列分配不支持类型 ndarray
我在这里错过了什么吗?
谢谢。
apache-spark - 填充和插入考拉数据框
是否可以像这样在 Koalas 数据框中插入和填充不同的列?
python - Pandas resample('D') 方法的 Spark/Koalas 实现
我有一个需要填充的 Spark 数据框。数据框的大小很大(> 1 亿行)。我可以使用 pandas 实现我想要的,如下所示。
.resample('D')
我在尝试使用考拉时被卡住了。有没有更好的替代方法来填充火花本机函数中的复制逻辑?原因是,我想避免使用 pandas,因为它不是分布式的并且仅在驱动程序节点上执行。
如何使用 Spark/Koalas 包实现与上述相同的功能?
pandas - 如何将熊猫数据框转换为具有混合数据类型的考拉
我正在使用 Azure Databricks 将熊猫数据框转换为考拉数据框...
这会导致错误消息“需要整数(获取类型 str)”
我尝试添加一个 dtype 的 str 来强制 koalas 数据帧为字符串类型。..
添加 dtype 在使用 databricks 扩展的 vs 代码中完美工作,但在 azure databricks 工作区中执行时会导致AssertionError 。
似乎 azure databricks 必须使用与 vs code databricks 扩展不同版本的考拉。
我怎样才能让它在 azure databricks 中工作?
如何找出 koalas azure databricks 使用的版本以及 databricks 与代码扩展使用的 koalas 版本?
我不能只使用pip list来查找 koalas 的 vs code 版本,因为它是扩展,而不是已安装的包。
对此的任何帮助将不胜感激
劳拉
python - 如何创建空的考拉df
我正在尝试使用以下命令创建空的 Koalas DataFrame
但我收到以下错误
ValueError: can not infer schema from empty or null dataset
我也尝试了以下命令,但发现了类似的错误
如果有人可以帮助我,我将不胜感激。