问题标签 [spark-koalas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - TypeError:“模块”对象在考拉数据帧上的时间不可调用
我正在从熊猫转换为考拉的一行代码遇到一个小问题。
注意:我正在数据块中执行我的代码。
以下行是熊猫代码:
我按如下方式转换为考拉。顺便提一下,我已经在以下代码行之前将 input_data 数据帧定义为 Koalas 类型。
我在 Koalas 转换中收到以下错误:TypeError: 'module' object is not callable
我不确定该time
模块有什么问题,因为我只想将 purchase_time 列中的条目分配给 t_avail 列,其中的条目具有非空时间。
有人可以帮我解决这个问题吗?我想我错过了一些愚蠢的东西。
谢谢你们。
python - PandasNotImplementedError 用于将 pandas 数据帧转换为 Koalas 数据帧
我在代码逻辑中遇到了一个小问题。
我正在将使用 pandas 数据帧的代码行转换为使用 Koalas 数据帧,并且在代码执行期间出现以下错误。
使用 pandas 数据框的原始代码行如下所示:
我使用数据框转换了上面的代码,如下所示。
使用 pandas 数据框的原始代码行如下所示。唯一的区别是 input_df 现在是一个考拉数据框:
编辑
使用 Spark 3.2.0 和 koalas==1.8.2 的数据块集群上的 Stacktrace
input_df
当使用作为考拉数据框时,我无法弄清楚我在上面的代码中遗漏了什么。有人可以帮我解决吗?
谢谢你们!
sql - Azure Databricks - 用考拉阅读表格
我对 Databricks 很陌生,我正在尝试用考拉做一些基本的数据探索。
当我登录 Databricks 时,在 DATA 下我看到 2 个主要选项卡,DATABASE TABLES 和 DBFS。我设法将 csv 文件读取为 koalas dataframes ( ksdf=ks.read_csv('/FileStore/tables/countryCodes.csv')
,但我不知道如何将我在 DATABASE TABLES 下看到的表读取为 koalas dataframe 。这些表都没有文件扩展名,我猜那些是 SQL 表?对不起,如果我的问题太基本了,非常感谢您的帮助。
python - 在 koalas 数据框中使用 .isin 检查两个数据框在列中是否具有相同的值
我在比较两个数据帧时遇到了一个小问题,数据帧的详细信息如下。下面详述的数据帧都在考拉中。
我在 databricks 上执行此代码,我希望mini_receipt_df_2
输出如下:
但在我上面显示的代码中,输出如下:
这对我来说毫无意义,因为使用 .isin 函数会给我的True
值,team_code = 0000340b
因为这在两个数据帧中是相同的。
有人可以帮我理解什么是错的吗?
谢谢
apache-spark - 为什么 Pandas-API-on-Spark 对组的应用比 pyspark API 慢?
在比较 pyspark 3.2.1 中提供在 Spark Dataframe 的分组结果上运行 pandas UDF 的能力的两个 API 时,我遇到了奇怪的性能结果:
首先,我在本地火花模式 (Spark 3.2.1) 下运行以下输入生成器代码:
然后我测试applyInPandas
:
并且代码在 30 秒内执行(在 i7-9750H CPU 上)
然后,我尝试了新的 API 并且 - 虽然我真的很欣赏代码看起来多么漂亮:
...每次在同一个 CPU 上执行时间至少为 1m 40s ,因此对于这个简单的操作来说,速度要慢 3 倍以上。
我知道添加sum_in_group
可以在没有 panadas 参与的情况下更有效地完成,但这只是为了提供一个小的最小示例。任何其他操作也至少慢 3 倍。
你知道这种放缓的原因是什么吗?也许我缺少一些可以使这些在相似时间执行的上下文参数?
python - 使用考拉在 name_data 数据框中的特定列中存在的值上连接两个数据框
我正在尝试在数据code
框中存在的列值上加入两个数据框,如下所示name_data
。
我有两个如下所示的数据框,我希望有一个结果数据框,它只包含来自 `team_datadataframe where the corresponding
代码value column is present in the
name_data``` 数据框的行。
我在databricks上使用考拉,我有以下代码使用连接操作。
预期的输出将是只看到以下内容team_data_filtered
。
但是我的代码抛出了一个错误,指出 columns overlap but no suffix specified: ['id']
.
有人可以帮助解决这个问题吗?
python - 在特定列上有效地迭代两个不同的数据帧并仅存储公共行
我有两个数据框,如下所示。
这两个数据框有一个名为的列code
,我想检查列code
中存在my_data
和也存在于的列中的值,input_data
并将它们存储在名为的结果数据框中output
。数据框将output
仅包含code
input_data 中存在的列值。每个数据框中的列数可能不同,我只是在这里展示了一个示例
根据output
此问题中提供的示例,数据框将具有如下结果。
我在网上找到了主要使用 for 循环的解决方案,但我想知道是否有更有效的方法来解决这个问题。
谢谢你们!
pandas - 大评分数据集的熊猫到考拉(Databricks)转换代码
我在获取大量数据集时遇到了OOM错误。数据集形状为(1500 万,230)。由于工作环境是Databricks
,我决定将评分代码更新为Koalas
并利用 Spark 架构来缓解我的内存问题。
但是,我在尝试将部分代码从熊猫转换为考拉时遇到了一些问题。非常感谢任何有关如何解决此问题的帮助。
目前,我正在尝试向我的数据框中添加一些调整后的列,但我得到了PandasNotImplementedError:该方法pd.Series.__iter__()
未实现。如果要将数据收集为 NumPy 数组,请改用“to_numpy()”。
代码/问题区域:
我相信问题区域是div([min(6,i)]
,但我不确定如何有效地转换这段特定的代码,或者一般来说如何处理利用 Databricks 或云环境对大数据集进行评分。
关于数据/模型的一些指示:
- 当然,数据是特征减少和选择的。
- 我用 250 万条记录构建了模型,现在我正在尝试处理评分文件。
python - 如何查找考拉数据帧的内存使用情况
我正在尝试对 azure databricks 工作进行一些内存分析。这项工作使用了一个 python 脚本,该脚本严重依赖于 koalas 数据帧进行分析。我想分析哪些数据帧或对象占用的内存最多,但考拉和数据块使这在代码级别上很难做到。
我曾尝试检查我的工作的火花 UI,但这不会显示对象级别的内存信息。我还尝试在下面的示例中使用 memory_usage(),它可以在 pandas 中使用,但在 koalas 中它会失败。我还尝试了 koalas .info() 函数,但它没有提供我正在寻找的信息。
有什么方法可以通过使用内存函数或分析工具来查看每个考拉数据帧占用的内存量?如果它可以指示我的代码中大部分内存被使用的位置,我会选择一个 databricks 作业分析工具。