问题标签 [python-polars]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
32 浏览

python-polars - 我可以使用 Polars 处理 DataFrame 而不在内存中构建整个输出吗?

要有效地将大型数据集加载到 Polars 中,可以使用惰性 API 和scan_*函数。这在我们执行聚合时效果很好(所以我们有一个很大的输入数据集但很小的结果)。但是,如果我想完整地处理一个大数据集(例如,更改列的每一行中的值),似乎没有办法使用collect整个(结果)数据集并将其加载到内存中。

是否可以直接将 LazyFrame 写入磁盘,并让处理按顺序对数据集的块进行操作,以限制内存使用?

0 投票
1 回答
17 浏览

python-polars - 使用组内表达式过滤 DataFrame

假设我已经有一个谓词表达式,如何使用该谓词进行过滤,但仅在组内应用它?例如,谓词可能是保持所有行等于最大值或在一个组内。(如果有平局,则可以在一个组中保留多行。)

以我的 dplyr 经验,我认为我可以只是.groupby然后.filter,但这不起作用。

然后我认为我可以应用于.over表达式,但这也不起作用。

对于这个特定问题,我可以调用.overmax但我不知道如何将其应用于我无法控制的任意谓词。

0 投票
2 回答
21 浏览

python-polars - Polars 中的表达式选择引用早期别名的上下文

有没有办法允许 Polars 中的表达式引用以前的别名表达式?例如,这段代码定义了两个新列错误,因为第二个新列引用了第一个:

该错误表明失败是由第一个别名对第二个表达式不可见引起的。有没有一种简单的方法来完成这项工作?

0 投票
1 回答
39 浏览

python - Polars:在 read_csv 中一次指定所有列的 dtypes

Polars中,如何为中的所有列指定一个dtype read_csv

根据docs, to 的dtypes参数read_csv可以采用 形式的映射 (dict){'column_name': dtype}或 dtypes 列表,每列一个。但是,尚不清楚如何指定“我希望所有列都是单个 dtype”。

例如,如果您希望所有列都是 Utf-8 并且您知道总列数,您可以这样做:

但是,如果您不知道总列数,这将不起作用。在 Pandas 中,您可以执行以下操作:

但这在 Polars 中不起作用。

0 投票
1 回答
37 浏览

pandas - 大熊猫等极地转换器

Pandas read_csv 接受转换器来预处理每个字段。这对于 int64 验证或混合日期格式等非常有用。您能否提供一种将多列读取为 pl.Utf8 然后转换为 Int64、Float64、Date 等的方法?

0 投票
1 回答
18 浏览

python-polars - Polars groupby 上下文中引用早期别名的表达式

聚合上下文中的表达式是否可以引用聚合中的先前表达式?

这不能天真地工作,因为正如错误清楚地表明的那样,上下文中的表达式不能引用以前的表达式。选择上下文的解决方法不适用于 groupby 上下文,因为agg它不会像那样保留所有数据with_column

0 投票
1 回答
12 浏览

python-polars - 聚类具有相同值的行而不进行排序

按特定列排序将这些列下具有相同元组的所有行聚集在一起。我想用相同的值对所有行进行聚类,但保持组的第一个成员出现的顺序相同。

像这样的东西:

0 投票
1 回答
21 浏览

python-polars - 如何限制极地中的线程数

有没有办法限制极地使用的线程数?

我这样做是因为我正在围绕一些极坐标代码进行第二层并行化,并希望限制内部并行性。由于 SIMD 的权利,这仍然应该比 Pandas 更好。

0 投票
1 回答
38 浏览

python - 北极熊猫中的“DataFrame.drop_duplicates()”的等价物是什么?

drop_duplicates()北极地区的熊猫相当于什么?

输出:

代码:

提供以下错误:

AttributeError:未找到 drop_duplicates

0 投票
2 回答
80 浏览

python - 如何按日期过滤极坐标数据框?

不像在熊猫中那样工作。

我找到了解决方法

但是如果我需要使用字符串变量,这并不能解决问题。