问题标签 [spark-koalas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark-sql - 如何将参数包含到掩码中或 Koalas 数据框中的 where 函数中
我有一个在 Azure 数据块中运行的考拉数据框,可以说:
我想创建一个新列(当前在函数中),它根据列的值(有限且已知)评估列,并用来自另一个数据集列的元素填充新列。(为什么?,因为第二个数据集包含要包含的参数,并且在用于此数据提取之前已被过滤)
我已经尝试过(来自调用 df 和 params 的函数中的代码)
带有错误消息:
这很奇怪,因为我在任何地方都没有给熊猫打电话
我也试过:
在第二种情况下,返回的数据帧具有所有 nan 值。
我也已经将 'compute.ops_on_diff_frames' 设置为True
python - 如何用 conda 安装考拉?
根据koalas 文档,使用 conda 安装 koalas 应该像
但这会引发错误:
收集包元数据(repodata.json):完成求解环境:初始冻结求解失败。使用灵活的求解重试。
PackagesNotFoundError:当前频道不提供以下软件包:
- 考拉
当前频道:
- https://conda.anaconda.org/anaconda-fusion/win-64
- https://conda.anaconda.org/anaconda-fusion/noarch
- https://repo.anaconda.com/pkgs/main/win-64
- https://repo.anaconda.com/pkgs/main/noarch
- https://repo.anaconda.com/pkgs/r/win-64
- https://repo.anaconda.com/pkgs/r/noarch
- https://repo.anaconda.com/pkgs/msys2/win-64
- https://repo.anaconda.com/pkgs/msys2/noarch
要搜索可能提供您正在寻找的 conda 包的替代频道,请导航至
并使用页面顶部的搜索栏。
我试着跑步
首先也是,这似乎工作得很好。但koalas
仍然会引发同样的错误。还有什么要说的吗
Koalas 需要 PySpark,因此请确保您的 PySpark 可用。
比conda install -c conda-forge pyspark
这太明显以至于不能包含在文档中吗?
我还在虚拟环境中尝试了整个过程
如果那应该重要。
系统信息:
pandas - 考拉数据框列操作
我有一个考拉数据框,大约。其中有 600 万行。我需要执行一个操作,读取数据框中的每一行,提取每一行的值,然后在列表中进行查找(该列表中有 30 K 个元素)。如果找到返回 true,否则返回 false,并创建一个布尔数组作为输出。
我知道一种简单的方法是使用 iterrows() 方法遍历每一行。但这很耗时。寻找可以使流程更快的建议。
例如,样本数据框是——
现在我有一个列表,其中包含我的列中的值组合,如果在测试列表中找到,则获取每一行的值,例如 (bear,1864),如果不是 false,则将 true 附加到列表中
test_list 长度约为 30k
样本输出将是
检查样本数据帧的每一行,第一行有值 (bear, 1864),因此输出列表的第一个元素为 true。第二行的值 (bear, 1864) 不在列表中。因此 False 被附加到输出列表等等。
python - 熊猫explode()函数的考拉等价物是什么?
我想将包含值列表的 Koalas 列分解为多个列。当我尝试使用此处记录的 df.explode()时,我得到了
AttributeError: 'DataFrame' object has no attribute 'explode'
. 我知道 Koalas 是一个相对较新的 API,explode() 还不支持吗?
python - 使用 Databricks 连接器 (Python 3.7) 在 PyCharm 中导入考拉时出错
当我尝试从 databricks 导入考拉时,我看到以下错误。我正在使用 pyspark v2.4.5,并且能够成功连接到我的 Spark 集群。似乎使用 python 3.5 并连接到 Databricks Runtime 5.x 是可行的。我创建了一个干净的虚拟环境并通过conda install -c conda-forge koalas
. 我还尝试将 kolas 回滚到早期版本,但无济于事。如果我可以帮助提供更多详细信息,请告诉我。
python - koalas groupby -> apply 返回'无法插入“key”,已经存在'
我一直在努力解决这个问题并且无法解决它,我得到了当前的数据框:
以及我想在 groupby 中使用的这个功能 - 应用:
其中 df 是一个熊猫数据框。如果我使用 pandas 进行分组应用,代码将按预期执行:
但是当试图在考拉上运行同样的程序时,它给了我以下错误:ValueError: cannot insert store, already exists
我不能使用输入注释,compute_indicator
因为某些列不是固定的(它们与数据框一起移动,旨在供其他转换使用)。
在考拉中运行代码应该怎么做?
python - Databricks Koalas:使用for循环创建带有条件的新列,并根据旧列名动态命名新列
示例数据集:
我知道如何在熊猫中做到这一点。以下是我的代码:
我可以使用以下方法在考拉中一一创建新列:
但我不知道如何对所有功率列执行此操作,因为我的数据集非常大,有 50 多个功率列和 1000 多个其他列。我正在使用 Databricks。我不想为所有电源列编写 50 多行代码。我的问题是我不知道如何在考拉的for循环中动态地将“_Status”添加到我的原始列名“power_1”中。我尝试使用类似的熊猫结构进行循环。这是我尝试但失败的方法。
谢谢