问题标签 [spark-koalas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在考拉的 groupby 对象中获取组数?
如何获取groupby
对象中的组数koalas
?
在 pandas 中我们可以使用ngroups
,但是这种方法在 koalas 中还没有实现。
假设groupby
对象被调用dfgroup
。
任何想法 ?
apache-spark - 考拉 sort_index 增加 spark 分区
我是考拉的新手,我很惊讶当我使用方法 sort_index() 和 sort_values() 时,火花分区会自动增加。
例子:
输出:
如果我使用随机列(或索引)进行排序,例如
输出:
为什么会发生这种情况?
我还尝试使用更大的数据集,并且分区增加更多(从 12 到 200)
python - 如何遍历考拉 groupby 的元素?
我想遍历数据框中的组。这在熊猫中是可能的,但是当我将它移植到考拉时,我得到一个错误。
这是错误:
这种群体迭代在考拉中是否可行?考拉文档有点暗示这是可能的 - https://koalas.readthedocs.io/en/latest/reference/groupby.html
databricks - databricks.koalas 没有用于十分位的属性“qcut”
我在数据块中使用考拉并试图对数据进行十等分。
因此我用
df['Decile']= ks.qcut(df['Id'], q = 10, labels = False)
我收到 AttributeError:模块 'databricks.koalas' 没有属性 'qcut'
有解决办法吗?
pandas - 如何在考拉中创建具有 2 个或更多条件验证的新列
我已经使用 3 验证在 df3 上创建了“Turno”列以分类为“Turno_PM”、“Turno_AM”或“N/A”,但我想知道是否存在达到相同结果的“简单方法”,例如if/elif/else 或类似的“循环”。
这是我使用过的代码。
spark-koalas - Spark-Koalas 错误:列分配不支持类型元组
我无法分配kdf[c].factorize()
给kdf[c]
.
我试过这个,但没有帮助:
任何帮助表示赞赏。
python - 基于 PySpark 的内联正则表达式匹配方法,如 Pandas
我有一个在 Pandas 中运行良好的代码片段,但是我的数据量很大,而且 Pandas 消耗了大量内存。这就是我尝试基于 PySpark 或 Koalas 的解决方案的地方,因为它们都是基于 Spark 且高度可扩展的。由于我是 Spark 的新手,我不确定如何优化这种规模的正则表达式和替换字符串。
我的代码片段:
编辑 1
在下表中,details
是输入,details_trunc
是输出
details_trunc | 细节 | 班级 |
---|---|---|
本地通话费 | 本地通话费 | AAB |
本地通话费 | 本地通话费 | AAB |
本地电话 | 本地电话 - 来电 0.00 | AAB |
本地电话 | 本地电话 - 拨出 0.00 | AAB |
性病电话 | STD 呼叫 - E STD 020 呼叫手机号码 | AAB |
v019 通话 | v019 通话 - 0.66 美元 | AAB |
v019 通话 | v019 通话 - 8.80 美元 | AAB |
v019 通话 | v019 通话 - 手机号 $0.92 | AAB |
v019 通话 | v019 通话 - 手机号 $0.25 | AAB |
v019 通话 | v019 通话 - 手机号 $1.84 | AAB |
国际直拨电话 | IDD 001 通话 - E 手机号码 | AAB |
国际直拨电话 | IDD 001 呼叫 - IDD 001 呼叫 - S | AAB |
漫游来电 | 漫游来电 193813 | RRE |
漫游来电 | 漫游来电 204459 | RRE |
漫游来电 | 漫游去电 000911 国际电话 | 患病的 |
漫游来电 | 漫游去电 000954 Int'l Call(S'pore) | 国际线 |
漫游来电 | 漫游拨出电话 001447 国际电话(新加坡) | 国际线 |
AutoRoam 重新路由 IDD/STD 呼叫 | AutoRoam 重新路由 IDD/STD 呼叫 - AutoRoam 重新路由 IDD 呼叫 - D -(TSM:数量设置为 0,计入相应的 AutoRoam 呼叫) | AAB |
本地移动数据/GPRS 数据 | 本地移动数据/GPRS 数据(1GB = 1024MB;1MB = 1024KB) | AAB |
本地彩信 | 本地彩信 (M1/StarHub) | BRQ |
智能消息 | SmartMessage(本地) | BRQ |
全球短信 | 全球短信 | AKK |
全球短信 | 全球短信 | AKK |
python - 从 Koalas/Pandas Dataframe 中选择多个列表类型的列并构造一个新的 Dataframe
我有一个数据框,其中每一行看起来像这样:
接下来我想做的是抓取“a”和“b”列并创建一个新的数据框,其中每一行都是它们列表中的顺序元素。所以看起来像:
我目前正在使用 pyspark 在 Databricks 笔记本上结合使用考拉和熊猫,并计划在 Spark 集群上运行。任何关于如何实现这一点的建议(牢记性能)都会非常有帮助!
apache-spark - 如何计算考拉聚合中的唯一值
刚接触考拉,尝试做一些非常基本的事情。我只是想计算聚合中列中的唯一值。在熊猫中,我会这样做:
但是例如ks.Series.nunique
不起作用,并且“计数”似乎也没有给出正确的答案。
对于如此简单和常见的事情非常令人沮丧,而且令人讨厌的是,我似乎无法在文档中找到它,因为它自称是移植 pandas 来激发火花。