“spark-koalas”的相关标签问题

0 投票

1 回答

229 浏览

apache-spark-sql - 如何将参数包含到掩码中或 Koalas 数据框中的 where 函数中

我有一个在 Azure 数据块中运行的考拉数据框，可以说：

我想创建一个新列（当前在函数中），它根据列的值（有限且已知）评估列，并用来自另一个数据集列的元素填充新列。（为什么？，因为第二个数据集包含要包含的参数，并且在用于此数据提取之前已被过滤）

我已经尝试过（来自调用 df 和 params 的函数中的代码）

带有错误消息：

这很奇怪，因为我在任何地方都没有给熊猫打电话

我也试过：

在第二种情况下，返回的数据帧具有所有 nan 值。

我也已经将 'compute.ops_on_diff_frames' 设置为True

apache-spark-sql spark-koalas

2020-02-17T03:06:00.843

0 投票

1 回答

323 浏览

python - 如何用 conda 安装考拉？

根据koalas 文档，使用 conda 安装 koalas 应该像

但这会引发错误：

收集包元数据（repodata.json）：完成求解环境：初始冻结求解失败。使用灵活的求解重试。

PackagesNotFoundError：当前频道不提供以下软件包：

考拉

当前频道：

https://conda.anaconda.org/anaconda-fusion/win-64

https://conda.anaconda.org/anaconda-fusion/noarch

https://repo.anaconda.com/pkgs/main/win-64

https://repo.anaconda.com/pkgs/main/noarch

https://repo.anaconda.com/pkgs/r/win-64

https://repo.anaconda.com/pkgs/r/noarch

https://repo.anaconda.com/pkgs/msys2/win-64

https://repo.anaconda.com/pkgs/msys2/noarch

要搜索可能提供您正在寻找的 conda 包的替代频道，请导航至

并使用页面顶部的搜索栏。

我试着跑步

首先也是，这似乎工作得很好。但koalas仍然会引发同样的错误。还有什么要说的吗

Koalas 需要 PySpark，因此请确保您的 PySpark 可用。

比conda install -c conda-forge pyspark这太明显以至于不能包含在文档中吗？

我还在虚拟环境中尝试了整个过程

如果那应该重要。

系统信息：

2020-02-17T13:35:54.473

0 投票

1 回答

626 浏览

python - Koalas 与 Sklearn 不兼容 - ValueError: could not convert string to float: 'x'

我尝试让Koalas适应Pandas 运行良好的代码：

它在最后一行失败，并出现以下错误：

似乎考拉中的标题行被fit_transform函数解释为正常的行。

有什么解决方法吗？

谢谢。

python pandas databricks spark-koalas

2020-02-18T10:54:18.277

0 投票

0 回答

37 浏览

python - 独立配置 pyspark 以由用户运行执行程序

我在使用带有独立集群的 pyspark (Koalas) 编写镶木地板文件时遇到问题。我遇到的错误是java.io.IOException: Could not rename file。

我从这里发现

这是因为驱动程序由用户运行，而执行程序进程由 root 运行，而这些 root 没有权限在用户文件夹中写入文件。

我的临时解决方案是将其保存到此处建议的C:\文件夹中。

但是，我想知道是否有一种方法可以将 pyspark 配置为也由用户运行执行程序，以便我可以在用户文件夹上进行写入。

python python-3.x pyspark parquet spark-koalas

2020-02-20T16:58:53.293

0 投票

1 回答

1326 浏览

pandas - 考拉数据框列操作

我有一个考拉数据框，大约。其中有 600 万行。我需要执行一个操作，读取数据框中的每一行，提取每一行的值，然后在列表中进行查找（该列表中有 30 K 个元素）。如果找到返回 true，否则返回 false，并创建一个布尔数组作为输出。

我知道一种简单的方法是使用 iterrows() 方法遍历每一行。但这很耗时。寻找可以使流程更快的建议。

例如，样本数据框是——

现在我有一个列表，其中包含我的列中的值组合，如果在测试列表中找到，则获取每一行的值，例如 (bear,1864)，如果不是 false，则将 true 附加到列表中

test_list 长度约为 30k

样本输出将是

检查样本数据帧的每一行，第一行有值 (bear, 1864)，因此输出列表的第一个元素为 true。第二行的值 (bear, 1864) 不在列表中。因此 False 被附加到输出列表等等。

pandas spark-koalas

2020-02-27T23:35:32.700

0 投票

1 回答

426 浏览

python - 熊猫explode()函数的考拉等价物是什么？

我想将包含值列表的 Koalas 列分解为多个列。当我尝试使用此处记录的 df.explode()时，我得到了AttributeError: 'DataFrame' object has no attribute 'explode'. 我知道 Koalas 是一个相对较新的 API，explode() 还不支持吗？

python pandas pyspark koala spark-koalas

2020-03-09T11:41:18.147

0 投票

0 回答

489 浏览

python - 使用 Databricks 连接器 (Python 3.7) 在 PyCharm 中导入考拉时出错

当我尝试从 databricks 导入考拉时，我看到以下错误。我正在使用 pyspark v2.4.5，并且能够成功连接到我的 Spark 集群。似乎使用 python 3.5 并连接到 Databricks Runtime 5.x 是可行的。我创建了一个干净的虚拟环境并通过conda install -c conda-forge koalas. 我还尝试将 kolas 回滚到早期版本，但无济于事。如果我可以帮助提供更多详细信息，请告诉我。

python python-3.x pyspark spark-koalas

2020-03-13T15:22:16.753

0 投票

1 回答

271 浏览

python - koalas groupby -> apply 返回'无法插入“key”，已经存在'

我一直在努力解决这个问题并且无法解决它，我得到了当前的数据框：

以及我想在 groupby 中使用的这个功能 - 应用：

其中 df 是一个熊猫数据框。如果我使用 pandas 进行分组应用，代码将按预期执行：

但是当试图在考拉上运行同样的程序时，它给了我以下错误：ValueError: cannot insert store, already exists

我不能使用输入注释，compute_indicator因为某些列不是固定的（它们与数据框一起移动，旨在供其他转换使用）。

在考拉中运行代码应该怎么做？

python pandas databricks spark-koalas

2020-03-21T17:23:36.837

0 投票

1 回答

900 浏览

python - Databricks Koalas：使用for循环创建带有条件的新列，并根据旧列名动态命名新列

示例数据集：

我知道如何在熊猫中做到这一点。以下是我的代码：

我可以使用以下方法在考拉中一一创建新列：

但我不知道如何对所有功率列执行此操作，因为我的数据集非常大，有 50 多个功率列和 1000 多个其他列。我正在使用 Databricks。我不想为所有电源列编写 50 多行代码。我的问题是我不知道如何在考拉的for循环中动态地将“_Status”添加到我的原始列名“power_1”中。我尝试使用类似的熊猫结构进行循环。这是我尝试但失败的方法。

谢谢

python pandas apache-spark databricks spark-koalas

2020-03-25T21:38:43.053

0 投票

1 回答

157 浏览

python - Databricks Koalas 无法导入镶木地板文件

将镶木地板文件从 Azure 数据湖导入数据块时遇到错误。

我尝试了其他方法，例如成功地将 parquet 导入为 Spark DataFrame，但是当我将 Spark DF 转换为 Koalas DF 时，它给出了同样的错误。

我也尝试将数据作为 Pandas DF 成功导入，但从 Pandas DF 转换为 Koalas DF 也失败了。

我是考拉的新手。任何人都可以对此有所了解。谢谢

python pandas pyspark databricks spark-koalas

2020-04-01T15:29:50.000

问题标签 [spark-koalas]

Reference