问题标签 [pyarrow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
227 浏览

python - 使用 pyarrow 的消费者-生产者模式

使用 pyarrow 作为 pandas 数据帧的快速内存存储实现基于多进程的消费者生产者模式的最佳方法是什么?

目前我正在使用 redis pub sub 但我认为可能有更有效(更快)的解决方案?你能举个例子吗?

0 投票
2 回答
1228 浏览

python - Feather.compat 导入 ModuleNotFoundError:没有名为“feather.compat”的模块

与这篇文章中定义的问题相同,但没有解决的答案。想知道pyarrowfeather之间是否发生了什么事。

我尝试了以下环境:

  • 我安装了conda install feather-format -c conda-forge

  • 安装有pip install feather-format

调用时发生错误:

我试图切换featherpyarrow作为最后的手段,但没有运气。

来自MicrobiomeHD 源代码的第 14 行有问题

自述文件中描述的 Python 2.7 环境以及 Python 3 环境失败

任何想法是什么问题?

0 投票
1 回答
2391 浏览

python - 当 S3 是目的地时,pandas.DataFrame.to_parquet 失败

我有一个 Pandas 数据框,我试图将它作为镶木地板文件保存到 S3 中:

我得到:“FileNotFoundError:bucket_name/test.parquet”

0 投票
2 回答
2369 浏览

pandas - Python pandas_udf火花错误

我开始在本地玩 spark 并发现这个奇怪的问题

以这里为例https://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html

知道为什么我不断收到此错误吗?

0 投票
1 回答
2298 浏览

python - 将 pyarrow 模式分配给 pa.Table.from_pandas()

我的 pandas 数据框中有一个列表列以及 int、string 等列。我能够转换字符串、日期、整数和时间戳列。我想知道如何将 array() 应用于列表列。

它要求为数组传递一个对象。我想知道如何将字符串类型数组的模式应用于“电子邮件”列,请记住我将表格写成镶木地板格式,因此空数组将导致 SegFault。最好的方法是什么?

0 投票
1 回答
871 浏览

python-3.x - 无法读取 parquet 文件,导致 Gzip 代码失败错误

我正在尝试使用 pyarrow 将镶木地板转换为 csv 文件。

上面的代码适用于从 github 下载的示例 parquet 文件。

但是当我尝试使用实际的大型镶木地板文件时,会出现以下错误。

我也尝试使用 fastparquet 和 pyspark 读取 parquet 文件。但我收到了类似的 GZip 错误。

我知道这是压缩或未压缩的镶木地板文件,与我下载的样本不同。

请建议任何代码或提供任何其他工具将此类镶木地板文件转换为 csv 文件将有很大帮助。谢谢。

编辑:与 parquet 中通常的字符串值相比,这些 parquet 文件似乎是二进制格式。有没有办法读取二进制镶木地板?

0 投票
2 回答
14945 浏览

pyspark - pyarrow 错误:toPandas 尝试了箭头优化

当我将 pyarrow 设置为 true 时,我们使用 spark 会话,但是当我运行 toPandas() 时,它会抛出错误:

我可以知道为什么会这样吗?

0 投票
0 回答
251 浏览

python - 使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错

我有这段代码,它应该从存储在 S3 上的镶木地板文件中读取单列数据: fs = s3fs.S3FileSystem() data_set = pq.ParquetDataset(f"s3://{bucket}/{key}", filesystem=fs) column_data = data_set.read(columns=[col_name])

我得到了这个例外: validate_schemas self.schema = self.pieces[0].get_metadata(open_file).schema IndexError: list index out of range

我升级到最新版本的 pyarrow 但没有帮助

0 投票
2 回答
3039 浏览

python - 在 S3 中用 pyarrow 覆盖镶木地板文件

我正在尝试用 S3 中的 pyarrow 覆盖我的镶木地板文件。我已经看过文档,但没有找到任何东西。

这是我的代码:

mode = "overwrite"write_to_dataset 函数中是否有类似选项?

0 投票
2 回答
2788 浏览

python - 如何用 pyarrow 编写 Parquet 元数据?

我使用 pyarrow 创建和分析包含生物信息的 Parquet 表,我需要存储一些元数据,例如数据来自哪个样本,如何获取和处理。

Parquet 似乎支持文件范围的元数据,但我找不到如何通过 pyarrow 编写它。我能找到的最接近的是如何编写 row-group metadata,但这似乎有点过头了,因为我的元数据对于文件中的所有行组都是相同的。

有没有办法用 pyarrow 编写文件范围的 Parquet 元数据?