问题标签 [python-polars]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-polars - 我可以使用 Polars 处理 DataFrame 而不在内存中构建整个输出吗?
要有效地将大型数据集加载到 Polars 中,可以使用惰性 API 和scan_*
函数。这在我们执行聚合时效果很好(所以我们有一个很大的输入数据集但很小的结果)。但是,如果我想完整地处理一个大数据集(例如,更改列的每一行中的值),似乎没有办法使用collect
整个(结果)数据集并将其加载到内存中。
是否可以直接将 LazyFrame 写入磁盘,并让处理按顺序对数据集的块进行操作,以限制内存使用?
python-polars - 使用组内表达式过滤 DataFrame
假设我已经有一个谓词表达式,如何使用该谓词进行过滤,但仅在组内应用它?例如,谓词可能是保持所有行等于最大值或在一个组内。(如果有平局,则可以在一个组中保留多行。)
以我的 dplyr 经验,我认为我可以只是.groupby
然后.filter
,但这不起作用。
然后我认为我可以应用于.over
表达式,但这也不起作用。
对于这个特定问题,我可以调用.over
,max
但我不知道如何将其应用于我无法控制的任意谓词。
python-polars - Polars 中的表达式选择引用早期别名的上下文
有没有办法允许 Polars 中的表达式引用以前的别名表达式?例如,这段代码定义了两个新列错误,因为第二个新列引用了第一个:
该错误表明失败是由第一个别名对第二个表达式不可见引起的。有没有一种简单的方法来完成这项工作?
pandas - 大熊猫等极地转换器
Pandas read_csv 接受转换器来预处理每个字段。这对于 int64 验证或混合日期格式等非常有用。您能否提供一种将多列读取为 pl.Utf8 然后转换为 Int64、Float64、Date 等的方法?
python-polars - Polars groupby 上下文中引用早期别名的表达式
聚合上下文中的表达式是否可以引用聚合中的先前表达式?
这不能天真地工作,因为正如错误清楚地表明的那样,上下文中的表达式不能引用以前的表达式。选择上下文的解决方法不适用于 groupby 上下文,因为agg
它不会像那样保留所有数据with_column
。
python-polars - 聚类具有相同值的行而不进行排序
按特定列排序将这些列下具有相同元组的所有行聚集在一起。我想用相同的值对所有行进行聚类,但保持组的第一个成员出现的顺序相同。
像这样的东西:
python-polars - 如何限制极地中的线程数
有没有办法限制极地使用的线程数?
我这样做是因为我正在围绕一些极坐标代码进行第二层并行化,并希望限制内部并行性。由于 SIMD 的权利,这仍然应该比 Pandas 更好。
python - 北极熊猫中的“DataFrame.drop_duplicates()”的等价物是什么?
drop_duplicates()
北极地区的熊猫相当于什么?
输出:
代码:
提供以下错误:
AttributeError:未找到 drop_duplicates
python - 如何按日期过滤极坐标数据框?
不像在熊猫中那样工作。
我找到了解决方法
但是如果我需要使用字符串变量,这并不能解决问题。