问题标签 [pyarrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 pyarrow 的消费者-生产者模式
使用 pyarrow 作为 pandas 数据帧的快速内存存储实现基于多进程的消费者生产者模式的最佳方法是什么?
目前我正在使用 redis pub sub 但我认为可能有更有效(更快)的解决方案?你能举个例子吗?
python - Feather.compat 导入 ModuleNotFoundError:没有名为“feather.compat”的模块
与这篇文章中定义的问题相同,但没有解决的答案。想知道pyarrow和feather之间是否发生了什么事。
我尝试了以下环境:
我安装了
conda install feather-format -c conda-forge
安装有
pip install feather-format
调用时发生错误:
我试图切换feather
到pyarrow
作为最后的手段,但没有运气。
来自MicrobiomeHD 源代码的第 14 行有问题
自述文件中描述的 Python 2.7 环境以及 Python 3 环境失败
任何想法是什么问题?
python - 当 S3 是目的地时,pandas.DataFrame.to_parquet 失败
我有一个 Pandas 数据框,我试图将它作为镶木地板文件保存到 S3 中:
我得到:“FileNotFoundError:bucket_name/test.parquet”
pandas - Python pandas_udf火花错误
我开始在本地玩 spark 并发现这个奇怪的问题
以这里为例https://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html
知道为什么我不断收到此错误吗?
python - 将 pyarrow 模式分配给 pa.Table.from_pandas()
我的 pandas 数据框中有一个列表列以及 int、string 等列。我能够转换字符串、日期、整数和时间戳列。我想知道如何将 array() 应用于列表列。
它要求为数组传递一个对象。我想知道如何将字符串类型数组的模式应用于“电子邮件”列,请记住我将表格写成镶木地板格式,因此空数组将导致 SegFault。最好的方法是什么?
python-3.x - 无法读取 parquet 文件,导致 Gzip 代码失败错误
我正在尝试使用 pyarrow 将镶木地板转换为 csv 文件。
上面的代码适用于从 github 下载的示例 parquet 文件。
但是当我尝试使用实际的大型镶木地板文件时,会出现以下错误。
我也尝试使用 fastparquet 和 pyspark 读取 parquet 文件。但我收到了类似的 GZip 错误。
我知道这是压缩或未压缩的镶木地板文件,与我下载的样本不同。
请建议任何代码或提供任何其他工具将此类镶木地板文件转换为 csv 文件将有很大帮助。谢谢。
编辑:与 parquet 中通常的字符串值相比,这些 parquet 文件似乎是二进制格式。有没有办法读取二进制镶木地板?
pyspark - pyarrow 错误:toPandas 尝试了箭头优化
当我将 pyarrow 设置为 true 时,我们使用 spark 会话,但是当我运行 toPandas() 时,它会抛出错误:
我可以知道为什么会这样吗?
python - 使用 pyarrow 在 Amazon S3 上打开 parquet 文件时出错
我有这段代码,它应该从存储在 S3 上的镶木地板文件中读取单列数据:
fs = s3fs.S3FileSystem()
data_set = pq.ParquetDataset(f"s3://{bucket}/{key}", filesystem=fs)
column_data = data_set.read(columns=[col_name])
我得到了这个例外: validate_schemas self.schema = self.pieces[0].get_metadata(open_file).schema IndexError: list index out of range
我升级到最新版本的 pyarrow 但没有帮助
python - 在 S3 中用 pyarrow 覆盖镶木地板文件
我正在尝试用 S3 中的 pyarrow 覆盖我的镶木地板文件。我已经看过文档,但没有找到任何东西。
这是我的代码:
mode = "overwrite"
write_to_dataset 函数中是否有类似选项?
python - 如何用 pyarrow 编写 Parquet 元数据?
我使用 pyarrow 创建和分析包含生物信息的 Parquet 表,我需要存储一些元数据,例如数据来自哪个样本,如何获取和处理。
Parquet 似乎支持文件范围的元数据,但我找不到如何通过 pyarrow 编写它。我能找到的最接近的是如何编写 row-group metadata,但这似乎有点过头了,因为我的元数据对于文件中的所有行组都是相同的。
有没有办法用 pyarrow 编写文件范围的 Parquet 元数据?