问题标签 [python-polars]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

60 问题

0 投票

1 回答

32 浏览

python-polars - 我可以使用 Polars 处理 DataFrame 而不在内存中构建整个输出吗？

要有效地将大型数据集加载到 Polars 中，可以使用惰性 API 和scan_*函数。这在我们执行聚合时效果很好（所以我们有一个很大的输入数据集但很小的结果）。但是，如果我想完整地处理一个大数据集（例如，更改列的每一行中的值），似乎没有办法使用collect整个（结果）数据集并将其加载到内存中。

是否可以直接将 LazyFrame 写入磁盘，并让处理按顺序对数据集的块进行操作，以限制内存使用？

python-polars

2022-02-07T15:35:23.600

0 投票

1 回答

17 浏览

python-polars - 使用组内表达式过滤 DataFrame

假设我已经有一个谓词表达式，如何使用该谓词进行过滤，但仅在组内应用它？例如，谓词可能是保持所有行等于最大值或在一个组内。（如果有平局，则可以在一个组中保留多行。）

以我的 dplyr 经验，我认为我可以只是.groupby然后.filter，但这不起作用。

然后我认为我可以应用于.over表达式，但这也不起作用。

对于这个特定问题，我可以调用.over，max但我不知道如何将其应用于我无法控制的任意谓词。

python-polars

2022-02-12T19:14:56.940

0 投票

2 回答

21 浏览

python-polars - Polars 中的表达式选择引用早期别名的上下文

有没有办法允许 Polars 中的表达式引用以前的别名表达式？例如，这段代码定义了两个新列错误，因为第二个新列引用了第一个：

该错误表明失败是由第一个别名对第二个表达式不可见引起的。有没有一种简单的方法来完成这项工作？

python-polars

2022-02-13T21:48:33.390

0 投票

1 回答

39 浏览

python - Polars：在 read_csv 中一次指定所有列的 dtypes

在Polars中，如何为中的所有列指定一个dtype read_csv？

根据docs， to 的dtypes参数read_csv可以采用形式的映射 (dict){'column_name': dtype}或 dtypes 列表，每列一个。但是，尚不清楚如何指定“我希望所有列都是单个 dtype”。

例如，如果您希望所有列都是 Utf-8 并且您知道总列数，您可以这样做：

但是，如果您不知道总列数，这将不起作用。在 Pandas 中，您可以执行以下操作：

但这在 Polars 中不起作用。

python python-polars

2022-02-14T02:55:31.217

0 投票

1 回答

37 浏览

pandas - 大熊猫等极地转换器

Pandas read_csv 接受转换器来预处理每个字段。这对于 int64 验证或混合日期格式等非常有用。您能否提供一种将多列读取为 pl.Utf8 然后转换为 Int64、Float64、Date 等的方法？

pandas python-polars

2022-02-14T22:51:16.913

0 投票

1 回答

18 浏览

python-polars - Polars groupby 上下文中引用早期别名的表达式

聚合上下文中的表达式是否可以引用聚合中的先前表达式？

这不能天真地工作，因为正如错误清楚地表明的那样，上下文中的表达式不能引用以前的表达式。选择上下文的解决方法不适用于 groupby 上下文，因为agg它不会像那样保留所有数据with_column。

python-polars

2022-02-15T02:14:58.853

0 投票

1 回答

12 浏览

python-polars - 聚类具有相同值的行而不进行排序

按特定列排序将这些列下具有相同元组的所有行聚集在一起。我想用相同的值对所有行进行聚类，但保持组的第一个成员出现的顺序相同。

像这样的东西：

python-polars

2022-02-17T13:30:06.960

0 投票

1 回答

21 浏览

python-polars - 如何限制极地中的线程数

有没有办法限制极地使用的线程数？

我这样做是因为我正在围绕一些极坐标代码进行第二层并行化，并希望限制内部并行性。由于 SIMD 的权利，这仍然应该比 Pandas 更好。

python-polars

2022-02-18T20:07:46.343

0 投票

1 回答

38 浏览

python - 北极熊猫中的“DataFrame.drop_duplicates()”的等价物是什么？

drop_duplicates()北极地区的熊猫相当于什么？

输出：

代码：

提供以下错误：

AttributeError：未找到 drop_duplicates

python python-polars

2022-02-20T16:57:14.763

0 投票

2 回答

80 浏览

python - 如何按日期过滤极坐标数据框？

不像在熊猫中那样工作。

我找到了解决方法

但是如果我需要使用字符串变量，这并不能解决问题。

python python-polars

2022-02-20T17:05:00.223

1 2 3 4 5 6 7 8 9 10