问题标签 [spark-koalas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
229 浏览

apache-spark-sql - 如何将参数包含到掩码中或 Koalas 数据框中的 where 函数中

我有一个在 Azure 数据块中运行的考拉数据框,可以说:

我想创建一个新列(当前在函数中),它根据列的值(有限且已知)评估列,并用来自另一个数据集列的元素填充新列。(为什么?,因为第二个数据集包含要包含的参数,并且在用于此数据提取之前已被过滤)

我已经尝试过(来自调用 df 和 params 的函数中的代码)

带有错误消息:

这很奇怪,因为我在任何地方都没有给熊猫打电话

我也试过:

在第二种情况下,返回的数据帧具有所有 nan 值。

我也已经将 'compute.ops_on_diff_frames' 设置为True

0 投票
1 回答
323 浏览

python - 如何用 conda 安装考拉?

根据koalas 文档,使用 conda 安装 koalas 应该像

但这会引发错误:

收集包元数据(repodata.json):完成求解环境:初始冻结求解失败。使用灵活的求解重试。

PackagesNotFoundError:当前频道不提供以下软件包:

  • 考拉

当前频道:

要搜索可能提供您正在寻找的 conda 包的替代频道,请导航至

并使用页面顶部的搜索栏。

我试着跑步

首先也是,这似乎工作得很好。但koalas仍然会引发同样的错误。还有什么要说的吗

Koalas 需要 PySpark,因此请确保您的 PySpark 可用。

conda install -c conda-forge pyspark这太明显以至于不能包含在文档中吗?

我还在虚拟环境中尝试了整个过程

如果那应该重要。

系统信息:

0 投票
1 回答
626 浏览

python - Koalas 与 Sklearn 不兼容 - ValueError: could not convert string to float: 'x'

我尝试让Koalas适应Pandas 运行良好的代码:

它在最后一行失败,并出现以下错误:

似乎考拉中的标题行被fit_transform函数解释为正常的行。

有什么解决方法吗?

谢谢。

0 投票
0 回答
37 浏览

python - 独立配置 pyspark 以由用户运行执行程序

我在使用带有独立集群的 pyspark (Koalas) 编写镶木地板文件时遇到问题。我遇到的错误是java.io.IOException: Could not rename file

我从这里发现

这是因为驱动程序由用户运行,而执行程序进程由 root 运行,而这些 root 没有权限在用户文件夹中写入文件。

我的临时解决方案是将其保存到此处建议的C:\文件夹中。

但是,我想知道是否有一种方法可以将 pyspark 配置为也由用户运行执行程序,以便我可以在用户文件夹上进行写入。

0 投票
1 回答
1326 浏览

pandas - 考拉数据框列操作

我有一个考拉数据框,大约。其中有 600 万行。我需要执行一个操作,读取数据框中的每一行,提取每一行的值,然后在列表中进行查找(该列表中有 30 K 个元素)。如果找到返回 true,否则返回 false,并创建一个布尔数组作为输出。

我知道一种简单的方法是使用 iterrows() 方法遍历每一行。但这很耗时。寻找可以使流程更快的建议。

例如,样本数据框是——

现在我有一个列表,其中包含我的列中的值组合,如果在测试列表中找到,则获取每一行的值,例如 (bear,1864),如果不是 false,则将 true 附加到列表中

test_list 长度约为 30k

样本输出将是

检查样本数据帧的每一行,第一行有值 (bear, 1864),因此输出列表的第一个元素为 true。第二行的值 (bear, 1864) 不在列表中。因此 False 被附加到输出列表等等。

0 投票
1 回答
426 浏览

python - 熊猫explode()函数的考拉等价物是什么?

我想将包含值列表的 Koalas 列分解为多个列。当我尝试使用此处记录的 df.explode(),我得到了 AttributeError: 'DataFrame' object has no attribute 'explode'. 我知道 Koalas 是一个相对较新的 API,explode() 还不支持吗?

0 投票
0 回答
489 浏览

python - 使用 Databricks 连接器 (Python 3.7) 在 PyCharm 中导入考拉时出错

当我尝试从 databricks 导入考拉时,我看到以下错误。我正在使用 pyspark v2.4.5,并且能够成功连接到我的 Spark 集群。似乎使用 python 3.5 并连接到 Databricks Runtime 5.x 是可行的。我创建了一个干净的虚拟环境并通过conda install -c conda-forge koalas. 我还尝试将 kolas 回滚到早期版本,但无济于事。如果我可以帮助提供更多详细信息,请告诉我。

0 投票
1 回答
271 浏览

python - koalas groupby -> apply 返回'无法插入“key”,已经存在'

我一直在努力解决这个问题并且无法解决它,我得到了当前的数据框:

以及我想在 groupby 中使用的这个功能 - 应用:

其中 df 是一个熊猫数据框。如果我使用 pandas 进行分组应用,代码将按预期执行:

但是当试图在考拉上运行同样的程序时,它给了我以下错误:ValueError: cannot insert store, already exists

我不能使用输入注释,compute_indicator因为某些列不是固定的(它们与数据框一起移动,旨在供其他转换使用)。

在考拉中运行代码应该怎么做?

0 投票
1 回答
900 浏览

python - Databricks Koalas:使用for循环创建带有条件的新列,并根据旧列名动态命名新列

示例数据集:

我知道如何在熊猫中做到这一点。以下是我的代码:

我可以使用以下方法在考拉中一一创建新列:

但我不知道如何对所有功率列执行此操作,因为我的数据集非常大,有 50 多个功率列和 1000 多个其他列。我正在使用 Databricks。我不想为所有电源列编写 50 多行代码。我的问题是我不知道如何在考拉的for循环中动态地将“_Status”添加到我的原始列名“power_1”中。我尝试使用类似的熊猫结构进行循环。这是我尝试但失败的方法。

谢谢

0 投票
1 回答
157 浏览

python - Databricks Koalas 无法导入镶木地板文件

将镶木地板文件从 Azure 数据湖导入数据块时遇到错误。 在此处输入图像描述

我尝试了其他方法,例如成功地将 parquet 导入为 Spark DataFrame,但是当我将 Spark DF 转换为 Koalas DF 时,它给出了同样的错误。

我也尝试将数据作为 Pandas DF 成功导入,但从 Pandas DF 转换为 Koalas DF 也失败了。

在此处输入图像描述

我是考拉的新手。任何人都可以对此有所了解。谢谢