问题标签 [spark-koalas]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

99 问题

0 投票

1 回答

121 浏览

python - 如何在考拉的 groupby 对象中获取组数？

如何获取groupby对象中的组数koalas？

在 pandas 中我们可以使用ngroups，但是这种方法在 koalas 中还没有实现。

假设groupby对象被调用dfgroup。

任何想法？

2020-12-25T21:01:06.063

0 投票

0 回答

64 浏览

apache-spark - 考拉 sort_index 增加 spark 分区

我是考拉的新手，我很惊讶当我使用方法 sort_index() 和 sort_values() 时，火花分区会自动增加。

例子：

输出：

如果我使用随机列（或索引）进行排序，例如

输出：

为什么会发生这种情况？

我还尝试使用更大的数据集，并且分区增加更多（从 12 到 200）

apache-spark pyspark spark-koalas

2021-01-02T22:31:18.460

0 投票

1 回答

270 浏览

python - 如何遍历考拉 groupby 的元素？

我想遍历数据框中的组。这在熊猫中是可能的，但是当我将它移植到考拉时，我得到一个错误。

这是错误：

这种群体迭代在考拉中是否可行？考拉文档有点暗示这是可能的 - https://koalas.readthedocs.io/en/latest/reference/groupby.html

python pandas apache-spark spark-koalas

2021-01-21T01:48:08.503

0 投票

0 回答

118 浏览

databricks - databricks.koalas 没有用于十分位的属性“qcut”

我在数据块中使用考拉并试图对数据进行十等分。

因此我用

df['Decile']= ks.qcut(df['Id'], q = 10, labels = False)

我收到 AttributeError：模块 'databricks.koalas' 没有属性 'qcut'

有解决办法吗？

databricks spark-koalas

2021-01-27T00:04:16.010

0 投票

1 回答

137 浏览

pandas - 如何在考拉中创建具有 2 个或更多条件验证的新列

我已经使用 3 验证在 df3 上创建了“Turno”列以分类为“Turno_PM”、“Turno_AM”或“N/A”，但我想知道是否存在达到相同结果的“简单方法”，例如if/elif/else 或类似的“循环”。

这是我使用过的代码。

pandas dataframe azure-databricks spark-koalas

2021-02-10T03:41:51.873

0 投票

1 回答

67 浏览

spark-koalas - Spark-Koalas 错误：列分配不支持类型元组

我无法分配kdf[c].factorize()给kdf[c].

我试过这个，但没有帮助：

任何帮助表示赞赏。

spark-koalas

2021-02-16T17:54:06.727

0 投票

1 回答

85 浏览

python - 基于 PySpark 的内联正则表达式匹配方法，如 Pandas

我有一个在 Pandas 中运行良好的代码片段，但是我的数据量很大，而且 Pandas 消耗了大量内存。这就是我尝试基于 PySpark 或 Koalas 的解决方案的地方，因为它们都是基于 Spark 且高度可扩展的。由于我是 Spark 的新手，我不确定如何优化这种规模的正则表达式和替换字符串。

我的代码片段：

编辑 1

在下表中，details是输入，details_trunc是输出

details_trunc	细节	班级
本地通话费	本地通话费	AAB
本地通话费	本地通话费	AAB
本地电话	本地电话 - 来电 0.00	AAB
本地电话	本地电话 - 拨出 0.00	AAB
性病电话	STD 呼叫 - E STD 020 呼叫手机号码	AAB
v019 通话	v019 通话 - 0.66 美元	AAB
v019 通话	v019 通话 - 8.80 美元	AAB
v019 通话	v019 通话 - 手机号 $0.92	AAB
v019 通话	v019 通话 - 手机号 $0.25	AAB
v019 通话	v019 通话 - 手机号 $1.84	AAB
国际直拨电话	IDD 001 通话 - E 手机号码	AAB
国际直拨电话	IDD 001 呼叫 - IDD 001 呼叫 - S	AAB
漫游来电	漫游来电 193813	RRE
漫游来电	漫游来电 204459	RRE
漫游来电	漫游去电 000911 国际电话	患病的
漫游来电	漫游去电 000954 Int'l Call(S'pore)	国际线
漫游来电	漫游拨出电话 001447 国际电话（新加坡）	国际线
AutoRoam 重新路由 IDD/STD 呼叫	AutoRoam 重新路由 IDD/STD 呼叫 - AutoRoam 重新路由 IDD 呼叫 - D -（TSM：数量设置为 0，计入相应的 AutoRoam 呼叫）	AAB
本地移动数据/GPRS 数据	本地移动数据/GPRS 数据（1GB = 1024MB；1MB = 1024KB）	AAB
本地彩信	本地彩信 (M1/StarHub)	BRQ
智能消息	SmartMessage（本地）	BRQ
全球短信	全球短信	AKK
全球短信	全球短信	AKK

python regex pandas pyspark spark-koalas

2021-02-19T15:29:40.193

0 投票

0 回答

159 浏览

python - 从 Koalas/Pandas Dataframe 中选择多个列表类型的列并构造一个新的 Dataframe

我有一个数据框，其中每一行看起来像这样：

接下来我想做的是抓取“a”和“b”列并创建一个新的数据框，其中每一行都是它们列表中的顺序元素。所以看起来像：

我目前正在使用 pyspark 在 Databricks 笔记本上结合使用考拉和熊猫，并计划在 Spark 集群上运行。任何关于如何实现这一点的建议（牢记性能）都会非常有帮助！

python pandas dataframe pyspark spark-koalas

2021-03-16T07:37:43.347

0 投票

2 回答

286 浏览

apache-spark - 如何计算考拉聚合中的唯一值

刚接触考拉，尝试做一些非常基本的事情。我只是想计算聚合中列中的唯一值。在熊猫中，我会这样做：

但是例如ks.Series.nunique不起作用，并且“计数”似乎也没有给出正确的答案。

对于如此简单和常见的事情非常令人沮丧，而且令人讨厌的是，我似乎无法在文档中找到它，因为它自称是移植 pandas 来激发火花。

apache-spark pyspark spark-koalas

2021-03-18T07:41:31.643

0 投票

1 回答

1449 浏览

spark-koalas - 考拉抛出“无法获取属性_fill_function”
当我在 python 脚本中运行以下代码并直接使用 python 运行它时，我收到以下错误。当我启动 pyspark 会话然后导入考拉时，创建数据框并调用 head() 它运行良好并给了我预期的输出。

是否需要设置 SparkSessi

当我在 python 脚本中运行以下代码并直接使用 python 运行它时，我收到以下错误。当我启动 pyspark 会话然后导入考拉时，创建数据框并调用 head() 它运行良好并给了我预期的输出。

是否需要设置 SparkSession 以使考拉工作的特定方式？

在 python 脚本中运行时出错：

版本：考拉：1.7.0 pyspark：版本：3.0.2

使用 StAX 时如何检查 Qname 是否等于某个值？

我正在尝试查找名称为帐户的所有标签。我试过这个...

但我得到...

现在我知道我可以解析出{}但是有没有更简洁的方法来测试元素名称？

spark-koalas

2021-03-22T12:42:20.107

1 2 3 4 5 6 7 8 9 10

问题标签 [spark-koalas]

使用 StAX 时如何检查 Qname 是否等于某个值？

Reference