问题标签 [spark-koalas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 无法将考拉系列指定为考拉中的新列
我无法将系列作为新列分配给考拉数据框。下面是我正在使用的代码库:
输出:
您能帮我了解我的方法出了什么问题以及如何将新列分配给考拉数据集吗?
python - 将考拉列表的列拆分为多列
如何从 df 转到 df1 ,其中 df 和 df1 如下所示?
我可以在这里看到 pandas 的解决方案。但是这个解决方案将收集驱动程序端的所有数据,这不是我想要发生的。我想要一个考拉(pyspark 上的熊猫)解决方案
apache-spark - How to create a koalas dataframe with index from another dataframe?
How can I create a koalas dataframe with index from another dataframe? I can do this in pandas but I am struggling to achieve the same in koalas. Following are my attempts so far:
pandas (works):
koalas (fails with error):
pandas (works):
koalas (fails without error):
python - To parallelize a function in pyspark and generate final dataFrame
I am new to spark. I need to execute a function myfunc()
in parallel and then just append all the generated dataframes.
Currently i am using for loop which I guess runs in sequence. How can I improve it?
python - 考拉中的日期类型提示
假设我想使用类型提示运行此代码:
原始数据类型:
如果我按原样运行,则在 groupby.apply 过程之后 dtypes 保持不变
我目前使用类型提示的最佳工作版本是:
但是返回的 dtypes 有点不同。
有没有办法获得确切的“datetime64[ns]”和“object”dtypes?
python - 使用考拉代替熊猫
我是考拉的新手。我被告知在我的工作中使用考拉而不是熊猫。早些时候,当我们有数据框时,我们将其转换为 pandas 并将其用于 np.where 并在内部进行条件检查。在 pandas 中我们曾经做过 np.where(condition,action1,action2) 的例子。当我尝试使用考拉做同样的事情时,我们会在下面收到错误
“PandasNotImplementedError:该方法pd.Series.__iter__()
未实现。如果要将数据收集为 NumPy 数组,请改用 'to_numpy()'。”
我什至尝试了 ks.series 和 ks.dataframe 但错误没有消失。
考拉中是否有任何方法/函数可以接受 3 个参数(条件、动作1、动作2),就像我们在熊猫中使用 np.where 一样。如果有人也通过示例进行解释,那将非常有帮助。
python - 如何在将熊猫转换为考拉的同时转换 np.where()?
我正在将一些熊猫系列和熊猫数据框转换为考拉以实现可扩展性。但是在我使用的地方,np.where()
我试图传递考拉数据帧,就像之前传递熊猫数据帧一样。但是我收到了一个错误 PandasNotImplementedError。
我该如何克服这个错误?我试过ks.where()
了,但没有用。
这是我正在使用 Pandas 编写的代码模型。
toPandas()
如果我使用or将考拉转换回熊猫,代码就可以工作from_pandas()
,但由于性能和可扩展性的原因,我不能使用熊猫。如果可能的话,请建议我在 Koalas 中使用一种替代方法,或者为 numpy 提供一种替代库,它可以很好地与 koalas 配合使用。
apache-spark - pySpark 数据框转换性能
我最近开始使用 pySpark。(在此之前我使用 Pandas)我想了解 Spark 如何在数据帧上执行和优化转换。
我可以使用带有数据框的一个变量一一进行转换吗?
就像这里
的转换方式#1:
或者我应该在一个变量赋值中使用所有转换?
像这里
的转换方式#2:
方式#1对我来说更清楚。我对 Pandas 使用了相同的逻辑。
但据我所知,RDD,即在 Spark 数据帧下 - 不可变
这意味着,当我进行变量分配时,Spark 每次都会创建新的 RDD?
从这个逻辑来看,我应该使用 Way#2 来节省内存?
或者也许我应该兑现数据框?还是 Spark 优化了这一步?
很高兴了解考拉在这种情况下也是如何工作的
python - Koalas 数据框应用 lambda 两列不同类型
我有一个数据框,其中有一列,str
另一列带有int
数据
以下操作适用于熊猫...
......但不是在考拉:(
它抛出错误:
我不清楚为什么会出现错误以及如何解决它。任何想法?
更新:
简化问题,我注意到它kdf.apply(lambda x: [1, 2], axis=1)
有效,但kdf.apply(lambda x: [1, "2"], axis=1)
抛出错误。在 koalas 数据框中似乎不可能有一个包含不同类型元素的列表。是这样吗?什么是替代方案?
google-cloud-platform - 如何通过本地 Jupyter Notebook 在 Dataproc 中使用考拉
查看 Google 文档,我能够将 Spark 作业提交到 Dataproc 集群并在集群内安装 JupyterLab 以在笔记本上运行迭代操作。
但是,我找不到使用 DataProc 集群资源从本地 Jupyer Notebook(在我的机器上)运行迭代命令的正确配置。
我特别感兴趣的是从我的本地 JupyterLab 创建一个集群,然后使用 pySpark (Koalas) 对 BigQuery 和 GCS 上托管的大型数据帧执行一系列操作。我的目标经验是在我的本地 JupyerLab 中使用 Dataproc,就像它可以用来访问集群机器或 Vertex IA 内的 JupyterLab 安装一样。
有谁知道如何配置它?