问题标签 [pyarrow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1343 浏览

dask - Distributed.utils - 错误 - 模块“pyarrow”没有属性“hdfs”

我正在尝试使用 to_parquet api 中的 pyarrow 引擎将 dask 数据帧写入 hdfs parquet。

但写入失败,但有以下异常:

pyarrow 版本:0.8.0 和分布式版本:1.20.2

但是当我尝试在 python 控制台中导入包时,它没有任何错误:

0 投票
2 回答
7476 浏览

python - Pyarrow 从 s3 读/写

是否可以在 s3 中从一个文件夹读取和写入镶木地板文件到另一个文件夹,而无需使用 pyarrow 转换为熊猫。

这是我的代码:

0 投票
1 回答
11157 浏览

python - 将模式分配给 pa.Table.from_pandas()

使用 pyArrow 将 pandas.DF 转换为镶木地板时出现此错误:

为了找出哪一列是问题,我在 for 循环中创建了一个新的 df,首先使用第一列,然后为每个循环添加另一列。我意识到错误出现在dtype: object以 0 开头的列中,我想这就是 pyArrow 想要将该列转换为int但失败的原因,因为其他值是UUID

我试图传递一个模式:(不确定这是否是要走的路)

其中架构是:df.dtypes

0 投票
0 回答
748 浏览

python-2.7 - IOError:[Errno 22] 加载镶木地板文件

我有像下面的示例数据这样的镶木地板数据。我正在尝试使用下面的代码将其加载到数据框中。我使用的引擎是 pyarrow。我有其他文件可以正常工作,但是当我尝试加载此文件时。我收到以下错误。我是镶木地板的新手,有人知道可能是什么问题吗?

代码:

错误:

0 投票
1 回答
9153 浏览

python - 保存 pd.DataFrame 时如何强制 parquet dtypes?

有没有办法强制镶木地板文件将pd.DataFrame列编码为给定类型,即使该列的所有值都为空?parquet 在其架构中自动分配“null”的事实阻止我将许多文件加载到单个dask.dataframe.

尝试使用 pandas 列df.column_name = df.column_name.astype(sometype)无效。

为什么我要问这个

我想将许多镶木地板文件加载到一个dask.dataframe. 所有文件都是从尽可能多的实例生成的pd.DataFrame,使用df.to_parquet(filename). 所有数据框都有相同的列,但对于某些给定的列可能只包含空值。尝试将所有文​​件加载到dask.dataframe(使用df = dd.read_parquet('*.parquet'),我收到以下错误:

重现我的问题的步骤

这给了我以下信息:

请注意在一种情况下我们有"pandas_type": "unicode",而在另一种情况下我们有"pandas_type": "empty".

没有为我提供解决方案的相关问题

0 投票
1 回答
3403 浏览

python - 在没有熊猫的情况下从 Python 编写镶木地板文件

作为 ETL 管道的一部分,我需要将数据从 JSON 转换为镶木地板。我目前正在使用pyarrow.Tablefrom_pandas的方法进行操作。但是,首先构建数据框感觉像是一个不必要的步骤,而且我想避免将熊猫作为依赖项。

有没有一种方法可以编写镶木地板文件而无需先将其加载到数据框中?

0 投票
1 回答
672 浏览

python - Dask Dataframe“ValueError:数据被压缩为 snappy,但我们没有安装这个”

python-snappy 似乎已安装 - Dask 返回 ValueError。

用于 jupyter 和 worker 的 Helm Config:

容器显示 python-snappy(通过 conda list)

数据框是从 Apache Drill 生成的多部分 parquet 文件中加载的:

在数据帧上运行len(df)返回:

任何人都可以在这里提出正确的配置或补救步骤吗?

0 投票
0 回答
830 浏览

python - 使用 PyArrow 首次读取后无法写入 Parquet 文件

我正在尝试读取 pandas 数据框中的镶木地板文件,进行一些操作并将其写回同一个文件中,但是在第一次读取同一函数后似乎无法写入文件。

只有在我不执行下面的步骤 1 时才有效。反正有没有像这样解锁文件?

错误:

0 投票
0 回答
3644 浏览

python - pyarrow.hdfs.connect 无法访问我的 hadoop 集群

我正在努力将我的功能性 hadoop 安装与 python 连接的第一步。这是我的主节点(本地网络)。

在此处输入图像描述

这是我尝试到达主节点时发生的情况:

我不确定我做错了什么,我在很多不同的报告中发现了这个问题。我根据文档设置了我的环境变量。这是我的 .bashrc 的结尾

直接从我的主节点运行此脚本时,我似乎遇到了不同的错误。这是否意味着我不能将此脚本用作客户端脚本?我错过了一步吗?

谢谢。

0 投票
2 回答
7235 浏览

pandas - pandas to_parquet 在大型数据集上失败

我正在尝试使用 pandas to_parquet 保存一个非常大的数据集,并且在超过某个限制时似乎会失败,无论是使用“pyarrow”还是“fastparquet”。我使用以下代码重现了我遇到的错误,并且很高兴听到有关如何克服该问题的想法:

使用 Pyarrow:


使用快速镶木地板: