问题标签 [python-polars]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Polars中将多列的不同值合并为一列
我有以下带有熊猫的 Python 代码
并希望将其转换为有效的 Polars 代码。有没有人有任何想法来解决这个问题?
python - 获取列为 pl.Series 而不是极坐标中的 pl.Dataframe
我正在尝试将数据框的列作为系列。
总是返回一个 pl.Dataframe。现在我正在这样做
我认为这不是最好的方法。有人有想法吗?
python-polars - 如何动态创建字段
有没有办法动态创建字段?我知道有一些方法。但是最好知道极地的最佳方法。例如,我想向现有数据框添加 12 个移位列。(lag1,lag2,lag3...lagN)如何实现这一点?
谢谢。
python - 创建一个包含来自一组 CSV 的唯一值的极坐标数据框
我有 +3000 个带有 +10 列的 CSV。我需要的是从其中两个中获得所有独特的价值。我能够读取极坐标中的唯一值:
我可以一一阅读剩余的文件,即:
检查所有值是否不相等:
然后.drop_duplicates()
。但是由于所有输入文件已经在两列(chr,pos)上排序,并且差异在 16M 输入行中的数千个,我希望有更好的方法来做到这一点。
提前谢谢你的帮助
丹麦
编辑
还有另一种使用 Polars 和 DuckDB 的方法。
- 为每个输入创建镶木地板文件
- 运行duckdb并执行:
学分来自 DuckDB 的 Mark Mytherin
python-polars - 如何获取极地组的row_count?
用法可能类似于下面的代码
数据应该是这样的:
之前:
md5
一个
一个
b
之后:
md5 行数
一个 1
a2
乙 1
python - Polars:Polars 中是否有类似 json_normalize 的功能?
我浏览了 Polars 的整个文档,但找不到任何可以将嵌套 json 转换为数据框的东西。
pandas 中的 json_normalize 将通过将列命名为 name、Subjects.Maths、Subjects.English 和 Subjects.Hindi 将其转换为数据框。那么这在Polars有可能吗?我确实尝试了所有功能,但它总是抛出错误,因为它不理解嵌套结构。
python-polars - Pandas `.isna()` 方法的 Polars 等效项是什么?
我正在尝试在生产代码中用Polars替换 Pandas,以获得更好的内存性能。
什么是 Pandas.isna()
方法的 Polars 等价物?我在文档中找不到任何好的等价物。
python - 将多列连接到单列中的列表中
我想将多个列作为一个列表组合成一个列。
例如,这个数据框:
进入这个:
现在我正在这样做:
有更好的方法吗?
python - 在 Polar 中搜索 DataFrame
我正在尝试编写一个小的 python 脚本来读取.parquet
具有以下架构的文件:
一个 | b | C | d |
---|---|---|---|
0 | X | 2 | 是的 |
2 | 1 | X | z |
该脚本采用以下参数:
- 一个输入文件
- 多列
- 多个搜索字符串(可以是字符串、数字或正则表达式)
然后它在给定的列中搜索给定的搜索字符串,并返回包含给定列中给定值的 DataFrame 的整行。
我现在的问题是如何正确编写搜索,因为在当前实现中,如果我尝试搜索具有不同于 utf8 的 dtype 的列,则会出现以下错误:RuntimeError: Any(SchemaMisMatch("Series dtype UInt64 != utf8"))
程序执行如下所示:pyton ./pqtmgr.py -f './test.parquet' -c 'a' -s '2'
python - Polars 分类功能和惰性 API 无法按预期工作
我正在尝试借助分类功能和惰性 API 加入两个数据框。我尝试按照用户指南中描述的方式进行操作(https://pola-rs.github.io/polars-book/user-guide/performance/strings.html)
但我收到以下错误:
使用with pl.StringCache():
一切正常,尽管用户指南说如果您使用惰性 API,则不需要它,我是否遗漏了什么或者这是一个错误?