问题标签 [pyarrow]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

715 问题

0 投票

1 回答

1343 浏览

dask - Distributed.utils - 错误 - 模块“pyarrow”没有属性“hdfs”

我正在尝试使用 to_parquet api 中的 pyarrow 引擎将 dask 数据帧写入 hdfs parquet。

但写入失败，但有以下异常：

pyarrow 版本：0.8.0 和分布式版本：1.20.2

但是当我尝试在 python 控制台中导入包时，它没有任何错误：

2018-03-21T23:41:40.020

0 投票

2 回答

7476 浏览

python - Pyarrow 从 s3 读/写

是否可以在 s3 中从一个文件夹读取和写入镶木地板文件到另一个文件夹，而无需使用 pyarrow 转换为熊猫。

这是我的代码：

python pyarrow

2018-03-27T12:42:14.967

0 投票

1 回答

11157 浏览

python - 将模式分配给 pa.Table.from_pandas()

使用 pyArrow 将 pandas.DF 转换为镶木地板时出现此错误：

为了找出哪一列是问题，我在 for 循环中创建了一个新的 df，首先使用第一列，然后为每个循环添加另一列。我意识到错误出现在dtype: object以 0 开头的列中，我想这就是 pyArrow 想要将该列转换为int但失败的原因，因为其他值是UUID

我试图传递一个模式：（不确定这是否是要走的路）

其中架构是：df.dtypes

python pandas parquet pyarrow

2018-03-29T22:08:37.597

0 投票

0 回答

748 浏览

python-2.7 - IOError：[Errno 22] 加载镶木地板文件

我有像下面的示例数据这样的镶木地板数据。我正在尝试使用下面的代码将其加载到数据框中。我使用的引擎是 pyarrow。我有其他文件可以正常工作，但是当我尝试加载此文件时。我收到以下错误。我是镶木地板的新手，有人知道可能是什么问题吗？

代码：

错误：

python-2.7 parquet pyarrow

2018-04-23T20:39:22.043

0 投票

1 回答

9153 浏览

python - 保存 pd.DataFrame 时如何强制 parquet dtypes？

有没有办法强制镶木地板文件将pd.DataFrame列编码为给定类型，即使该列的所有值都为空？parquet 在其架构中自动分配“null”的事实阻止我将许多文件加载到单个dask.dataframe.

尝试使用 pandas 列df.column_name = df.column_name.astype(sometype)无效。

为什么我要问这个

我想将许多镶木地板文件加载到一个dask.dataframe. 所有文件都是从尽可能多的实例生成的pd.DataFrame，使用df.to_parquet(filename). 所有数据框都有相同的列，但对于某些给定的列可能只包含空值。尝试将所有文件加载到dask.dataframe（使用df = dd.read_parquet('*.parquet')，我收到以下错误：

重现我的问题的步骤

这给了我以下信息：

请注意在一种情况下我们有"pandas_type": "unicode"，而在另一种情况下我们有"pandas_type": "empty".

没有为我提供解决方案的相关问题