问题标签 [spark-koalas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
121 浏览

python - 如何在考拉的 groupby 对象中获取组数?

如何获取groupby对象中的组数koalas

在 pandas 中我们可以使用ngroups,但是这种方法在 koalas 中还没有实现。

假设groupby对象被调用dfgroup

任何想法 ?

0 投票
0 回答
64 浏览

apache-spark - 考拉 sort_index 增加 spark 分区

我是考拉的新手,我很惊讶当我使用方法 sort_index() 和 sort_values() 时,火花分区会自动增加。

例子:

输出:

如果我使用随机列(或索引)进行排序,例如

输出:

为什么会发生这种情况?

我还尝试使用更大的数据集,并且分区增加更多(从 12 到 200)

0 投票
1 回答
270 浏览

python - 如何遍历考拉 groupby 的元素?

我想遍历数据框中的组。这在熊猫中是可能的,但是当我将它移植到考拉时,我得到一个错误。

这是错误:

这种群体迭代在考拉中是否可行?考拉文档有点暗示这是可能的 - https://koalas.readthedocs.io/en/latest/reference/groupby.html

0 投票
0 回答
118 浏览

databricks - databricks.koalas 没有用于十分位的属性“qcut”

我在数据块中使用考拉并试图对数据进行十等分。

因此我用

df['Decile']= ks.qcut(df['Id'], q = 10, labels = False)

我收到 AttributeError:模块 'databricks.koalas' 没有属性 'qcut'

有解决办法吗?

0 投票
1 回答
137 浏览

pandas - 如何在考拉中创建具有 2 个或更多条件验证的新列

我已经使用 3 验证在 df3 上创建了“Turno”列以分类为“Turno_PM”、“Turno_AM”或“N/A”,但我想知道是否存在达到相同结果的“简单方法”,例如if/elif/else 或类似的“循环”。

这是我使用过的代码。

0 投票
1 回答
67 浏览

spark-koalas - Spark-Koalas 错误:列分配不支持类型元组

我无法分配kdf[c].factorize()kdf[c].

我试过这个,但没有帮助:

任何帮助表示赞赏。

0 投票
1 回答
85 浏览

python - 基于 PySpark 的内联正则表达式匹配方法,如 Pandas

我有一个在 Pandas 中运行良好的代码片段,但是我的数据量很大,而且 Pandas 消耗了大量内存。这就是我尝试基于 PySpark 或 Koalas 的解决方案的地方,因为它们都是基于 Spark 且高度可扩展的。由于我是 Spark 的新手,我不确定如何优化这种规模的正则表达式和替换字符串。

我的代码片段:

编辑 1

在下表中,details是输入,details_trunc是输出

details_trunc 细节 班级
本地通话费 本地通话费 AAB
本地通话费 本地通话费 AAB
本地电话 本地电话 - 来电 0.00 AAB
本地电话 本地电话 - 拨出 0.00 AAB
性病电话 STD 呼叫 - E STD 020 呼叫手机号码 AAB
v019 通话 v019 通话 - 0.66 美元 AAB
v019 通话 v019 通话 - 8.80 美元 AAB
v019 通话 v019 通话 - 手机号 $0.92 AAB
v019 通话 v019 通话 - 手机号 $0.25 AAB
v019 通话 v019 通话 - 手机号 $1.84 AAB
国际直拨电话 IDD 001 通话 - E 手机号码 AAB
国际直拨电话 IDD 001 呼叫 - IDD 001 呼叫 - S AAB
漫游来电 漫游来电 193813 RRE
漫游来电 漫游来电 204459 RRE
漫游来电 漫游去电 000911 国际电话 患病的
漫游来电 漫游去电 000954 Int'l Call(S'pore) 国际线
漫游来电 漫游拨出电话 001447 国际电话(新加坡) 国际线
AutoRoam 重新路由 IDD/STD 呼叫 AutoRoam 重新路由 IDD/STD 呼叫 - AutoRoam 重新路由 IDD 呼叫 - D -(TSM:数量设置为 0,计入相应的 AutoRoam 呼叫) AAB
本地移动数据/GPRS 数据 本地移动数据/GPRS 数据(1GB = 1024MB;1MB = 1024KB) AAB
本地彩信 本地彩信 (M1/StarHub) BRQ
智能消息 SmartMessage(本地) BRQ
全球短信 全球短信 AKK
全球短信 全球短信 AKK
0 投票
0 回答
159 浏览

python - 从 Koalas/Pandas Dataframe 中选择多个列表类型的列并构造一个新的 Dataframe

我有一个数据框,其中每一行看起来像这样:

接下来我想做的是抓取“a”和“b”列并创建一个新的数据框,其中每一行都是它们列表中的顺序元素。所以看起来像:

我目前正在使用 pyspark 在 Databricks 笔记本上结合使用考拉和熊猫,并计划在 Spark 集群上运行。任何关于如何实现这一点的建议(牢记性能)都会非常有帮助!

0 投票
2 回答
286 浏览

apache-spark - 如何计算考拉聚合中的唯一值

刚接触考拉,尝试做一些非常基本的事情。我只是想计算聚合中列中的唯一值。在熊猫中,我会这样做:

但是例如ks.Series.nunique不起作用,并且“计数”似乎也没有给出正确的答案。

对于如此简单和常见的事情非常令人沮丧,而且令人讨厌的是,我似乎无法在文档中找到它,因为它自称是移植 pandas 来激发火花。

0 投票
1 回答
1449 浏览

spark-koalas - 考拉抛出“无法获取属性_fill_function”

当我在 python 脚本中运行以下代码并直接使用 python 运行它时,我收到以下错误。当我启动 pyspark 会话然后导入考拉时,创建数据框并调用 head() 它运行良好并给了我预期的输出。

是否需要设置 SparkSession 以使考拉工作的特定方式?

在 python 脚本中运行时出错:

版本:考拉:1.7.0 pyspark:版本:3.0.2


使用 StAX 时如何检查 Qname 是否等于某个值?

我正在尝试查找名称为帐户的所有标签。我试过这个...

但我得到...

现在我知道我可以解析出{}但是有没有更简洁的方法来测试元素名称?