问题标签 [python-polars]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
273 浏览

python - Polars中将多列的不同值合并为一列

我有以下带有熊猫的 Python 代码

并希望将其转换为有效的 Polars 代码。有没有人有任何想法来解决这个问题?

0 投票
1 回答
51 浏览

python - 获取列为 pl.Series 而不是极坐标中的 pl.Dataframe

我正在尝试将数据框的列作为系列。

总是返回一个 pl.Dataframe。现在我正在这样做

我认为这不是最好的方法。有人有想法吗?

0 投票
1 回答
56 浏览

python-polars - 如何动态创建字段

有没有办法动态创建字段?我知道有一些方法。但是最好知道极地的最佳方法。例如,我想向现有数据框添加 12 个移位列。(lag1,lag2,lag3...lagN)如何实现这一点?

谢谢。

0 投票
2 回答
184 浏览

python - 创建一个包含来自一组 CSV 的唯一值的极坐标数据框

我有 +3000 个带有 +10 列的 CSV。我需要的是从其中两个中获得所有独特的价值。我能够读取极坐标中的唯一值:

我可以一一阅读剩余的文件,即:

检查所有值是否不相等:

然后.drop_duplicates()。但是由于所有输入文件已经在两列(chr,pos)上排序,并且差异在 16M 输入行中的数千个,我希望有更好的方法来做到这一点。

提前谢谢你的帮助

丹麦

编辑

还有另一种使用 Polars 和 DuckDB 的方法。

  • 为每个输入创建镶木地板文件
  • 运行duckdb并执行:

学分来自 DuckDB 的 Mark Mytherin

0 投票
2 回答
92 浏览

python-polars - 如何获取极地组的row_count?

用法可能类似于下面的代码

数据应该是这样的:

之前

md5

一个

一个

b

之后

md5 行数

一个 1

a2

乙 1

0 投票
0 回答
105 浏览

python - Polars:Polars 中是否有类似 json_normalize 的功能?

我浏览了 Polars 的整个文档,但找不到任何可以将嵌套 json 转换为数据框的东西。

pandas 中的 json_normalize 将通过将列命名为 name、Subjects.Maths、Subjects.English 和 Subjects.Hindi 将其转换为数据框。那么这在Polars有可能吗?我确实尝试了所有功能,但它总是抛出错误,因为它不理解嵌套结构。

0 投票
1 回答
74 浏览

python-polars - Pandas `.isna()` 方法的 Polars 等效项是什么?

我正在尝试在生产代码中用Polars替换 Pandas,以获得更好的内存性能。

什么是 Pandas.isna()方法的 Polars 等价物?我在文档中找不到任何好的等价物。

0 投票
2 回答
157 浏览

python - 将多列连接到单列中的列表中

我想将多个列作为一个列表组合成一个列。

例如,这个数据框:

进入这个:

现在我正在这样做:

有更好的方法吗?

0 投票
1 回答
179 浏览

python - 在 Polar 中搜索 DataFrame

我正在尝试编写一个小的 python 脚本来读取.parquet具有以下架构的文件:

一个 b C d
0 X 2 是的
2 1 X z

该脚本采用以下参数:

  • 一个输入文件
  • 多列
  • 多个搜索字符串(可以是字符串、数字或正则表达式)

然后它在给定的列中搜索给定的搜索字符串,并返回包含给定列中给定值的 DataFrame 的整行。

我现在的问题是如何正确编写搜索,因为在当前实现中,如果我尝试搜索具有不同于 utf8 的 dtype 的列,则会出现以下错误:RuntimeError: Any(SchemaMisMatch("Series dtype UInt64 != utf8"))

程序执行如下所示:pyton ./pqtmgr.py -f './test.parquet' -c 'a' -s '2'

0 投票
1 回答
62 浏览

python - Polars 分类功能和惰性 API 无法按预期工作

我正在尝试借助分类功能和惰性 API 加入两个数据框。我尝试按照用户指南中描述的方式进行操作(https://pola-rs.github.io/polars-book/user-guide/performance/strings.html

但我收到以下错误:

使用with pl.StringCache():一切正常,尽管用户指南说如果您使用惰性 API,则不需要它,我是否遗漏了什么或者这是一个错误?